BiliBili热门视频弹幕爬虫

  最近对b站的弹幕很感兴趣,想爬下来分析点数据,废话不多说首先我们打开某个b站的视频,然后F12 切换到浏览器控制台。选择NetWork->检索弹幕源文件(弹幕资源文件xml格式)

阅读更多

利用Word2Vec提取b站弹幕中高质量问答对

  在b站看视频的时候,发现其中层出不穷的弹幕的里面有很多信息是可以值得挖掘的。在大部分人眼里看来很水的其实还是有很多有价值的信息的。于是,在认真看完一部视频后提取相关的弹幕文件分析了一下,发现其中其实有很多网友互动的成分在里面。

  如果能把这些成分提出的话,可以作为问答语料使用。目前高质量的问答语料还是很少的[1],所以如果能从这些视频网站中的弹幕信息中提取高质量的问答语料还是很具有现实意义的。

  先来分析:这是截取的”贝爷探险”的其中某一屏。可以看出,问答中其中也掺杂着不”水”的弹幕,所以问题的关键是,如何判断一句话是与问句相关的答案,进而排除一些”水”的弹幕。

  这里摘取了一段一个时间段的屏幕的问答对话

阅读更多