Label-Studio | 多媒体数据标注工具使用方法

大邓和他的Python

共 1636字,需浏览 4分钟

 · 2021-07-27

腾讯课堂 | Python网络爬虫与文本分析

假设我们想使用机器学习做文本分析,一般都需要先对数据进行标注,才能训练出效果比较好的监督机器学习模型。

label-studio是多媒体数据标注工具,可以很方便的进行标注和导出。

Label Studio 是一款开源数据标注工具,用于标注和探索多种类型的数据。您可以使用多种数据格式执行的标记任务。

您还可以将 Label Studio 与机器学习模型集成,以提供标签(预标签)的预测,或执行持续的主动学习。

官方文档 https://labelstud.io/


操作步骤

  1. 安装Label Studio
  2. 启动Label Studio
  3. 创建Label Studio账号
  4. 项目默认配置
  5. 导入数据
  6. 标注数据
  7. 结束标记,导出标注数据

安装

命令行中执行

pip install label-studio==1.1.0


2 快速上手

在桌面创建自动生成一个名为Project的项目文件夹。

  • Win命令行执行
label-studio --data-dir Desktop/Project
  • Mac命令行执行
label-studio --data-dir desktop/Project


执行上方代码大概10s左右,会在浏览器弹出如下界面


注册好账号密码,点击Create Project



项目描述填写好,点击按钮 Data Import


这里我们要做文本分析,导入csv



设置标注模式,点击按钮Labeling Setup,选择Natural Language ProcessTEXT Classification。就考研进行pos、neg、neo三个类别的文本标注。

注意label-studio提供了diy,考研根据自己需要点击Code设定标注类别名称、增减类别。大家感兴趣的可以深入研究。

点击Save 按钮,开始准备标注数据啦


数据界面,勾选全部数据,点击蓝色按钮Label All Tasks


开始标注,勾选你认为合适的标签,点击右侧Submit



导出标注数据,先点击右侧Export按钮,选择导出格式,最后点击底部Export按钮执行导出。



腾讯课堂 | Python网络爬虫与文本分析


近期文章

腾讯课堂 | Python网络爬虫与文本分析
中文金融情感词典发布啦 | 附代码
B站视频 | Python自动化办公
wordexpansion包 | 新增词向量法构建领域词典
语法最简单的微博通用爬虫weibo_crawler
hiResearch 定义自己的科研首页
大邓github汇总, 觉得有用记得star
whatlies包 | 简单玩转词向量可视化
multistop ~ 多语言停用词库
Jaal 库 轻松绘制动态社交网络关系图
SciencePlots | 科研样式绘图库
使用streamlit上线中文文本分析网站
爬虫实战 | 采集&可视化知乎问题的回答
Clumper | dplyr式的Python数据操作包
Clumper库 | 常用的数据操作函数
Clumper库 | Groupby具体案例用法
Clumper库 | 其他数据分析
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G

浏览 610
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报