CVAT标注
共 1859字,需浏览 4分钟
·
2021-08-17 21:37
一般信息
计算机视觉注释工具 (CVAT)是一种用于注释数字图像和视频的开源工具。该应用程序的主要功能是为用户提供方便的注释工具。为此,我们将 CVAT 设计为具有许多强大功能的多功能服务。
CVAT 是一个基于浏览器的应用程序,适用于个人和团队,支持不同的工作场景。监督式机器学习的主要任务可以分为三组:
物体检测
图像分类
图像分割
CVAT 允许您为每个案例注释数据。该工具有一些优点和缺点。
优点:
基于网络。用户无需安装应用程序;如果他们想要创建任务或注释数据,他们只需要在浏览器中打开工具的链接。
协作。用户可以创建公共任务并在其他用户之间分配工作。
易于部署。CVAT 可以使用Docker*安装在本地网络中 。
自动注释。例如,用户可以在关键帧之间使用插值。
专业开发。该工具是在专业注释和算法团队的支持下创建的。
一体化。CVAT 适合嵌入到开放和可扩展的平台中,例如Onepanel*。
支持的可选工具:
深度学习部署工具包(Intel® Distribution of OpenVINO™ toolkit element)
TensorFlow* 对象检测 API (TF OD API)
ELK(Elasticsearch* + Logstash* + Kibana*)分析系统
NVIDIA* CUDA* 工具包
支持不同的注释场景。
在MIT 许可下开源代码。
缺点:
有限的浏览器支持。CVAT 的客户端仅适用于 Google Chrome*。CVAT 未在其他浏览器中进行测试,但它可能适用于基于 Chromium* 的浏览器,例如 Opera* 或 Yandex* 浏览器。
未加工的自动测试系统。所有检查都必须手动完成,这大大减慢了开发过程。然而,英特尔正在下诺夫哥罗德罗巴切夫斯基州立大学的学生的帮助下努力解决这个问题,他们作为IT 实验室项目的一部分协助该团队。
缺乏源代码文档。这会使参与该工具的开发变得非常困难。
性能问题。由于大量带注释的数据而导致的需求增加导致 Chrome Sandbox 出现问题,从而限制了 RAM 的使用。
如上所述,CVAT 支持许多额外的可选组件:
深度学习部署工具包,英特尔® OpenVINO 工具包分发版的一个元素,用于在没有 GPU 的情况下加速 TF OD API 模型的启动。该工具包具有一些可用于开发的有益功能。
TensorFlow* 对象检测 API,用于自动注释对象。Faster RCNN Inception ResNet V2 模型在COCO(80 个类)上训练是默认的,但用户可以轻松连接其他模型。
Logstash*、Elasticsearch*、Kibana*允许用户可视化和分析来自客户端的注释日志。它可能有助于监控注释过程,或搜索错误及其原因。
数据标注
CVAT 中的数据注释首先使用以下说明创建注释任务:
指定详细注释规范的完整 URL 和其他附加信息 ( Bug Tracker )
指定用于数据存储的 Git 存储库的 URL ( Dataset Repository )
将所有图像旋转 180 度(翻转图像)
支持分割任务的层(Z-Order)
将庞大的数据集划分为几个较小的段(段大小e)
制作重叠段(Overlap)。此选项使视频从一个片段连续到另一个片段
指定上传图像的质量(图像质量)
数据集从本地文件系统或容器内的挂载文件系统加载。一项任务可以包括一个图像档案、一个视频、一组或来自共享存储的图像目录。
命名任务
指定标签及其属性
选择要下载的文件
一些附加选项:
然后按提交按钮,它将被添加到注释任务列表中。
Jobs部分内的每个链接对应一个段。在这种情况下,数据集不会划分为段。用户可以通过任何链接开始注释过程。
用户可以使用四种形状来注释图像:框、多边形(通常用于分割任务)、折线(可用于注释路标)和点(例如,用于注释面部标志或姿势估计)。
此外,还有许多用于典型注释任务的功能:自动化工具(使用 TensorFlow OD API 复制和传播对象、插值和自动注释)、视觉设置、快捷方式、过滤器等。这些可以在设置菜单中更改。
在帮助菜单还包含了一些快捷键和其他的暗示。