爬取了 S10 SN vs DWG 总决赛视频的 10 w 条弹幕和评论
点击上方 月小水长 并 设为星标,第一时间接收干货推送
昨晚,S 10 总决赛,恭喜 SN , 杀进了全球总决赛,可惜了 DWG,与队史第一个 S 赛亚军擦肩而过。
在 B 站看的直播,又和几千人一起在 B 站看了录播。
看完第四局 DWG 推平 SN 的基地,终究是没能等来那气吞万里如虎的解说词,于是漫不经心地关闭了 B 站,打开了我的 IDE,一阵索然无味,只想搞技术,IT 男的生活就是这么朴实无华,且枯燥。
关于 B 站爬虫,我之前分享过利用爬虫做的B 站视频下载器更新:分集下载及任务多开,这次我觉得爬爬视频的弹幕和文本,更有意思。于是
此处有很多看不见的头发...
弹幕+评论,一共 快 10w 多条文本,粗略地过了一遍,不由得感叹,B 站上人才济济一堂。
18年,IG送走了G2,IG是冠军19年,FPX送走了G2,FPX是冠军20年,DWG送走了G2,DWG是冠军
有这么多数据,自然而然想要分析一波,先来看看弹幕,看看弹幕数走势和局势走势相关度。
下面是各分钟弹幕数图
最开始 5 分钟弹幕数过多,最 后 5 分钟过少,其和局势走势并无太大关系,截取 5-55 分钟来看
这就是很明显的心电图了,但是每个波峰表示的是战场局势发生变化或者选手个人有极其亮眼的操作的时刻,不信,b 站截图为证,比如最后那个波峰,51 分钟就是神 BIN 天降豪取五杀引起的全体起立合影。
为什么会出现波谷呢,很容易理解,局势很久没变了,大家都懒得发弹幕了。波峰还有一个问题是,无法得出是由于我方局势恶化还是好转引起的弹幕增加,这就需要判断该波峰处的弹幕文本的极性是偏消极还是积极了,用 NLP 操作一下。
本来试着对每条弹幕都判断下极性,如果是正向,则本分钟内弹幕数+1,如果是负向,则-1,中立则保持不变,这样分析的优点是准确,缺点是太费时间了,几 w 条文本,要几个小时才能出结果,所以我改进了下,把每一分钟的文本合并一次性判断极性,负向则该分钟弹幕数为 300,中立则弹幕数为 600,正向则弹幕数为 900,它们分别是各分种弹幕数走势图的四分之一、四分之二、四分之三分位点。作图如下:
极性基准线以下是负向,可以理解为局势恶化了,以上是正向,局势好转了,相对极性弹幕数的波峰全部出现在原来的波峰里,还是比较经典的心电图,符合预期。
弹幕分析完了,再来看看那几万条评论,评论文本普遍都比弹幕文本长。
沉迷于翻看评论,一时间竟不知如何下手分析,那就来个 LDA 分析乱炖吧
分 2 个主题,分别看看两个主题下的关键词分布如下:
一个主题主旨讲的是 SN 是黑马,bin 是天神,另一个主题讲的是 DWG yes
还好,明年,S 11 全球总决赛,还在中国举办,在屏幕前心碎的电竞男孩,还有机会去现场,身临其境地心碎一次,剑指 S12。
本次分析的弹幕和评论 csv 可在后台回复【S10】 获取