清单管理？面向机器学习中的数据集-技术圈

毋庸置疑的是，数据在机器学习中起着至关重要的作用。每个机器学习模型实例都是使用静态数据集的形式进行训练和评估，这些数据集的特性从根本上影响了模型的行为: 如果一个模型的部署环境与它的训练或评估数据集不匹配，或者这些数据集存在不必要的误差和偏见，那么它就不可能有良好的表现。当机器学习模型应用于高风险领域时，如招聘和金融等领域时，这种不匹配会产生特别严重的后果。即使在其他领域，不匹配也可能导致收益的损失。

虽然数据的可信来源已经在数据库领域得到了广泛的研究，但是在机器学习领域却不是这样的，记录数据集的创建和使用并没有得到足够的重视，目前还没有标准化的机器学习数据集记录流程。

有什么好的方法么？不妨尝试一下清单管理。

1. 关于清单管理

在电子工业中，每个部件，无论多么简单或复杂，都伴随着一份描述其操作特性、测试结果、推荐使用和其他信息的数据表。同样的，我们可以尝试使用清单管理，每个数据集都伴随着一个清单列表，记录其动机、组成、采集、用途等等。数据集的清单列表会增加机器学习的透明度和问责制，减少机器学习模型中不必要的误差和偏见。

用于数据集的清单需要满足两个关键群体的需求: 数据集创建者和数据集消费者。对于数据集的创建者来说，清单可以对创建、分发和维护数据集的过程进行反思，包括任何潜在的假设、风险或危害，以及使用的影响。对于数据集消费者来说，清单可以确保他们拥有所需的信息，以便在使用数据集时做出明智的决策。数据集创建者的透明度对于数据集消费者来说是必要的，这样可以充分了解选择适当的数据集，并避免无意中的误用。

同时，数据集的清单管理促进机器学习结果有更大的重用性，无法访问数据集的开发者可以利用清单中的信息创建具有类似特征的替代数据集。

2. 面向数据集生命周期的清单

数据集生命周期包括: 动机、组成、采集、预处理/清理/标记、使用、分发和维护。面向数据集的生命周期，可以尝试简历清单列表。需要注意的是，清单中的内容并非适用于所有数据集，那些不适用的选项可以跳过。

2.1 数据集的创建动机

创建数据集的理由是创建的动机，自检清单可能包括：

创建数据集的目的是什么？
预期面向什么问题？
有没有什么具体的任务？
谁创建了数据集，代表哪个实体(实例例如，公司、机构、组织) ？

2.2 数据集的组成

数据集的创建者在数据采集之前明确的清单列表，要了解对数据集的消费者提供所需要的信息，以便在是否使用数据集时做出明智的决定。需要注意的是，如果涉及个人信息，要关注《个人信息保护法》，以及其他的法律法规的限定。

组成数据集的实例代表什么(例如，文档、照片、人物、国家等) ？
是否存在多种类型的实例(例如，电影、用户和评级之间的交互，可能是节点和边) ？
总共有多少个实例？
数据集是否包含所有可能的实例，还是来自更大集合的实例样本(不一定是随机的) ？如果数据集是一个样本，那么较大的集合是什么？样本能否代表较大的集合吗？如果是，要描述如何验证这个代表性。如果不能，要描述原因。
每个实例由哪些数据组成？原始数据(例如，未处理的文本或图像)还是特征数据呢？
是否有与每个实例相关联的标签或对象?
单个实例中是否缺少信息？如果是，描述这个信息是缺失的(例如，因为它是不可用的)。
个别实例之间的关系是否明确(例如，社交网络链接等) ？
是否有推荐的数据拆分(例如，训练、开发/验证、测试) ？如果是，描述这些拆分背后的理由。
数据集中是否有任何错误、噪音源或冗余? 如果有，描述是哪些。
数据集是自包含的，还是链接到外部资源(例如，网站或其他数据集) ？如果链接到或依赖于外部资源，a)是否保证这些资源在一段时间内将继续存在并保持不变; b)是否存在完整数据集的官方版本(即，包括数据集创建时存在的外部资源) ; c)是否存在外部数据集资源的使用限制(例如，许可或费用) ？说明所有外部资源和与之相关的任何限制，以及链接。
数据集是否包含可能被视为机密的数据(例如，受医患保密性保护的数据等) ？

如果数据集与人有关，还可能包括：

数据集是否识别人群(例如，按年龄、性别) ？如果是，描述如何识别的，并在数据集中提供它们各自分布的描述。
是否有可能从数据集中直接或间接地(即与其他数据结合)识别个人(即一个或多个自然人) ？
数据集是否包含任何可能被视为敏感的数据(例如，政治观点或身份或地点的数据; 金融或健康数据; 生物特征或基因数据; 政府身份识别形式，如身份证等) ？

2.3 采集

数据获取过程，可以人们创建具有类似特征的替代数据集，可能包括：

如何获得与每个实例相关联的数据？这些数据是否可以直接观察到(例如，原始文本、电影评级) ，或者从其他数据(例如，词性标签、年龄或语言)中间接推断/导出？如有关数据是间接从其他数据推断/得出，有关数据是否经过验证/核实？
采用了哪些机制或程序来收集数据(例如，硬件设备或传感器、人工管理、软件程序、软件 api) ？如何验证这些机制或程序？
如果数据集是一个较大集合中的样本，那么采样策略是什么(例如，确定性的、具有特定采样概率的概率) ？
数据收集的时间跨度是多少？这个时间段是否与与实例(例如，最近抓取的旧文章)相关联数据的创建时间段相匹配？
是否进行过任何道德审查程序？

如果数据集与人员有关，还可能包括：