机器学习 | 数据从哪里找?手把手教你构建数据集
来源:大数据DT 本文约2680字,干货满满,建议阅读5分钟
了解如何以及在何处查找要使用的数据集是很好的。在AI的广阔领域和它可以应用到的大量问题中,这两者都是非常主观的,但是存在一些通用的真理和建议。
数据中显示的值及其类型 收集数据的个人或组织 收集数据所使用的方法(如果知道的话) 收集数据的时间范围 该集合单独是否足以解决你的问题。如果不能,那么是否容易合并其他的来源
免责声明
每个国家都有自己关于数据集收集、存储和维护的法律法规。本节中描述的一些方法在一个地区可能是合法的,但在下一个地区则是非法的。在没有首先检查数据集合法性的情况下,你决不能采取任何行动来获取数据集。通过数据抓取或追踪的方法观察你不拥有的在线内容,在世界上的某些地方会招致严重的惩罚,不管你是不知道,也不管你这么做的目的是什么。这是不值得做的。
其他方法在法律中可能不明确,例如从公共场所收集照片或录像,或出于其他目的提供数据的所有权。
即使数据集有一个许可证说明你可以使用所需的数据,在你拥有数据之后,也要仔细考虑收集它的方法和职责。你所在地区的法律总是优先于授予你数据权限的许可。
根据经验,如果不是你自己创建的数据,你就不拥有它(即使你确实创建了它,仍然可能不拥有它)。所以,除非你得到明确的许可,否则不能收集或使用它。
1. 数据记录
2. 数据整理
3. 数据抓取
评论