文本数据标注工具doccano【介绍最详细的一遍文章】
共 2383字,需浏览 5分钟
·
2022-04-18 14:10
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
doccano是一个开源文本标注工具。它提供了文本分类,序列标注和序列到序列的标注功能。因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。只需创建项目,上传数据并开始标注。
总结下来就3步,上传数据,标注,下载带有标签的数据。
官网:http://doccano.herokuapp.com/
命名实体识别
第一个演示是序列标记任务之一,命名实体识别。您只需选择文本跨度并对其进行标注即可。由于doccano支持快捷键,因此您可以快速标注文本跨度。
情感分析
第二个演示是文本分类任务之一,主题分类。由于可能有多个类别,因此您可以标注多个标签。
机器翻译
最终演示是序列任务,机器翻译的序列之一。由于序列任务的顺序可能不止一个,因此您可以创建多个响应。
doccano特性
Collaborative annotation(合作标注:可以进行多人合作,分配标注任务。)
Multi-language support(支持多种语言)
Mobile support(支持移动)
Emoji 😄 support(支持标签)
Dark theme(主题)
RESTful API(RestFul风格)
安装doccano
安装:我使用的安装方式是docker镜像:
拉取doccano的Docker镜像
docker pull chakkiworks/doccano
运行:将Docker镜像作为Container运行
其中可自定义用户名和密码并设置邮箱:
用户名:ADMIN_USERNAME=yourself_username
邮箱:ADMIN_EMAIL=yourself_email
密码:ADMIN_PASSWORD=yourself_password
登录:
现在,打开Web浏览器并转到http://IP:8000/login/。你应该看到登录界面:
创建项目:
尚未创建任何项目。要创建项目,请确保您已进入项目列表页面并选择“创建项目”按钮。您应该看到以下屏幕:
创建好项目后会跳转到导入数据页【以文本分类为例】:
导入数据后【所有页面相关介绍】:
普通成员注册:
注册成功后不能登录【第一次登录时不能直接登录,第二次可以使用用户名和密码登录】,需通过后台日志生成的访问路径进行进入:
......
新注册的用户只有查看项目和标注管理员分配的项目
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx