各种机器学习和深度学习的中文微博情感分析

机器学习AI算法工程

共 2058字，需浏览 5分钟

·

2022-03-23 11:26

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

"情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的

带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)

数据格式

文档的每一行代表一条语料
每条语料的第一个数据为微博对应的mid,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除)
第二个数据为情感标签, 0表示负面, 1表示正面
其余后面部分都是微博文本

微博表情都被转义成[xx]的格式, 如:

[doge]

[允悲]

微博话题/地理定位/视频、文本超链接等都转义成了{%xxxx%}的格式，使用正则可以很方便地将其清洗

项目说明

训练集10000条语料, 测试集500条语料
使用朴素贝叶斯、SVM、XGBoost、LSTM和Bert, 等多种模型搭建并训练二分类模型
前3个模型都采用端到端的训练方法
LSTM先预训练得到Word2Vec词向量, 在训练神经网络
Bert使用的是哈工大的预训练模型, 用Bert的[CLS]位输出在一个下游网络上进行finetune。预训练模型需要自行下载:

github下载地址: https://github.com/ymcui/Chinese-BERT-wwm
baidu网盘: https://pan.baidu.com/s/16z-ybrqT6wLdy_mLHtywSw 密码: djkj
下载后将文件夹放在./model文件夹下, 并将bert_config.json改名为config.json

全部项目代码，微博语料数据集 获取方式：

关注微信公众号 datanlp 然后回复情感分析即可获取。

实验结果

各种分类器在测试集上的测试结果

阅读过本文的人还看了以下文章：

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

《深度学习：基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

浏览 81

点赞

收藏

分享

举报

评论

图片

表情

基于各种机器学习和深度学习的中文微博情感分析

深度学习和机器视觉分析

新机器视觉

【机器学习基础】机器学习和深度学习的练习数据

机器学习初学者

机器学习和深度学习的区别到底是什么?

机器学习算法与Python实战

所以，机器学习和深度学习的区别是什么？

菜鸟学Python

所以，机器学习和深度学习的区别是什么？

程序员大白

机器学习和深度学习的区别到底是什么?

Python绿色通道

【机器学习基础】获取机器学习和深度学习的练习数据

机器学习初学者

学习笔记 ——深度学习和机器视觉

入门深度学习与机器学习的经验和学习路径

小白学视觉

点赞

收藏

分享

举报