谷歌团队警告:人人都想做模型而非数据工作,这很危险
转载自数据实战派
AI 模型越来越多地应用于健康监测、雇员评价、信用评级等高风险领域。
与之相比的是,数据质量在 AI 中所发挥的作用却被低估,然而真实的情况是,它在高风险 AI 应用中的价值是无可替代的。因为数据质量对下游的影响巨大,尤其是癌症检测、野生动物偷猎和贷款分配等预测任务上。由此引出当下的矛盾之处:“一贯被视为无足轻重的数据,其影响从未被真正了解过”。
这个结论来自谷歌团队的一篇题为“Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI”的论文,明确肯定了数据质量在 AI 中的潜力和价值。
在该文章中,这支研究团队通过与印度、东非和西非国家以及美国的53位AI从业者进行访谈,呈现出现有的高风险 AI 数据实践。
AI地基所在
数据是构建 AI 系统所必需的关键基础设施。因为数据在很大程度上决定了 AI 系统的性能、公平性、稳健性、安全性和可扩展性。然而矛盾的是,对于 AI 研究人员和开发人员而言,数据方面通常是最不被重视的。
从直觉上看,AI 开发人员认为数据质量很重要。而实际上,大多数组织都没有建立或满足任何数据质量标准,这是因为相对于模型开发任务,数据工作的价值向来被忽视,更别提时间成本了。
研究团队从来自印度、美国、东非和西非国家的 53 位 AI 从业者的实践和结构因素进行了定性研究并报告了结果,将 AI 应用于高风险领域,包括滑坡检测、自杀预防和癌症检测,旨在了解这些从业者如何对端到端 AI 数据生命周期概念化和导航化。
研究采用的半结构化访谈,主要关注以下几个内容:
(1)数据源和AI生命周期;
(2)定义数据质量;
(3)数据质量反馈回路;
(4)上下游数据效应;
(5)利益相关者和问责制;
(6)激励结构;
(7)有效的干预措施。
他们通过开发者社区、分发名单、专业网络和个人联系人的组合方式来招募参与者,使用滚雪球式和有目的性的抽样,不断迭代直到饱和。
参与者人口统计的具体信息如表 1 所示:
表1
为了更清楚的展示问题,他们定义、识别并提供了数据库级联(Data Cascades)的经验证据——由低估数据质量的传统 AI/ML 实践引发的复合事件,这些事件会造成数据问题的负面和下游影响。
研究发现,低估数据工作的价值在 AI 开发中屡见不鲜。
换句话说,由此导致的数据库级联的存在非常普遍。数据库级联通常是由于应用了传统的 AI 实践,低估了数据质量而引发的。
在进行项目中,有 92% 的 AI 从业者报告经历了一个或多个级联,而 45.3% 的人报告了两个或多个级联。
例如,在无噪声数据上训练以获得高模型性能的眼部疾病检测模型,无法根据图像上的小灰尘斑点预测产生的疾病。数据库级联不透明且有延迟,指标和衡量标准较差。级联对模型的下游任务构成了主要的负面影响,如昂贵的迭代、废弃项目和对社区的危害。需要注意的是,如果通过有意的做法,级联基本上是可以避免的。
这种高普遍性表明,AI 领域潜藏着一个更大的问题,即数据实践、方法和激励机制的损坏。数据库级联、其指标和影响应当放在更广阔的高风险领域和 AI 生态系统中进行审查。
普遍存在的问题
影响高风险领域中数据库级联因素有很多,论文主要总结出以下几点:
1、AI 中的激励机制:
“每个人都想做模型工作而不是数据工作”。
对 AI 中不可见、费力且理所当然的数据工作缺乏系统认识,导致糟糕的数据实践,进而引发数据库级联。
与模型不同,对数据的关心和改进不容易被“跟踪”或得到奖励。据报道,在 ML 出版物中,AI 模型作为在该领域获得声望和上升流动的手段,使从业者在 AI/ML 工作及其他方面更具竞争力。然而,许多从业者将数据工作描述为耗时的、无法跟踪的工作,并且经常是在利润压力下快速完成的,往往无法专注于提升数据质量。此外,在高质量的数据收集和注释工作上很难获得客户和投资者的支持,特别是在价格敏感的新兴市场,比如东非、西非国家和印度。
2、数据教育:
在 AI 的数据质量、收集和伦理道德方面缺乏培训,导致从业者在处理高风险领域创建数据集的复杂性方面准备不足。
AI 课程专注于清洗数据后的小数据集(如UCI 人口普查, Kaggle数据集),但在实践中,部署 AI 需要创建数据管道,通常是从零开始。正如西非国家从事医疗保健的工作人员解释的那样:“在现实生活中,我们从未看到干净的数据。课程和培训侧重于要使用的工具,而很少涉及数据清理和管道漏洞。”同样,来自美国的一位教员也进行了说明:“我们从未接受过计算机科学(CS, Computer Science)的培训,也没有积极地考虑数据收集的问题。”总而言之,数据工程一直都未得到足够的重视。
3、数据自举:
高风险的 AI 领域需要按地区、人口、现象或物种划分的专门数据集,尤其是在数字化不足的环境中。
例如,在泰米尔纳德邦农村地区的疟疾传播,马赛马拉的大象运动。74% 的从业者从零开始进行数据收集工作——许多人在对此无准备的情况下坦然接受,也有的人为此放弃了 AI 项目。
来自美国的从业者大多是从现有资源和已建立的数字基础设施中起步的,例如卫星数据、传感器数据和公共数据集,而东非、西非和印度等的大多数国家则从头收集数据,并“量身定制”在线数据集。使用其他地区的数据进行自举会造成通用性方面的限制。例如,美国清洁能源使用美国东北部的卫星数据进行自举模型训练,但由于地形、云层和污染的差异,无法应用到目标位置。
4、下游问责制:
高风险 AI 的定义特征之一是隐含着对生命体特别是人类自己的责任。
由于在与弱势群体合作时缺乏数据和采用下游方法,所以当从业者面临挑战时便会发生数据库级联。性能差的风险主要表现为对社区的伤害,但也会降低用户的信任度。
“如果你建立了预测眼疾的模型,然而预测结果是这个人没有患上眼病,那么你就会让这个人失明。” 因此,研究报告显示,消费者 AI(例如广告技术)的目标通常是 70-75% 的准确率,而针对于高风险领域,每增加 1% 的准确率都至关重要。“目前还没有一种明确的方法来有效地进行模型测试,以防止对患者造成某种伤害。可见,一切都始于风险。”
研究确定了数据库级联和相应从业者行为的根本原因,并再次强调,在构建 AI 系统时需要高质量的数据,对数据工作的付出应视为 AI 生态系统的宝贵贡献。任何解决方案都需要考虑AI生态系统的社会、技术和结构这三方面。
更细节的场景下,数据库级联受到以下因素的影响:
(a)参与 AI 开发的行为体(例如,开发人员、政府和现场合作伙伴)的活动和相互作用,
(b)AI 系统所处的物理世界和社区(例如,配备数据收集传感器的农村医院)。
而且数据库级联表现出以下属性:
1.不透明(Opaque):数据库级联是复杂的、长期的、频繁和持续发生的;它们在诊断和表现上是不透明的,具体表现在没有明确的指标、工具来检测和衡量其对系统的影响。在缺乏明确定义和及时信号的情况下,从业者将目光转向了替代性指标(例如,准确率、精确度或 F1 分数),注意其中的度量单位是整个系统,而非指数据集。
2.触发者(Triggered by):当传统 AI 实践被应用于高风险领域时,就会触发数据库级联,这些领域的特点是高问责性、跨学科工作和资源紧张。
3.负面影响(Negative impact):数据库级联对 AI 开发和部署过程有负面影响,导致在很多种场景下,一些意想不到的策略难免引发进一步的级联,从而频繁造成技术债务。
哪些领域存在高风险 AI?
文章特别关注对生物环境有安全影响的高风险领域中的数据低估现象,并总结出以下趋势:
1.开发人员正越来越多地在复杂的人道主义领域部署 AI 模型,例如在孕产妇健康、道路安全和气候变化等方面;
2.高风险领域的低质量数据可能会对脆弱的社区和环境造成巨大影响。
正如 Hiatt 等人所言,这些高风险的工作不同于日常的客户服务;这些项目是为那些面临一连串恐怖事件风险的人群服务的。例如,不良的数据实践降低了 IBM 癌症治疗 AI 的准确性,并导致谷歌流感预测与流感高峰期的差值达 140%。
3.高风险 AI 系统通常部署在低资源环境下,明显缺乏现成的高质量数据集。应用程序扩展到生活在现代数据基础设施之外的社区,或日常功能尚未得到持续追踪的社区。例如,在农村地区通过步行距离来收集水资源数据,这与直接点击数据形成鲜明对比。
4.高风险 AI 通常是由两种或更多学科组合而成。例如,AI 和糖尿病视网膜病变,导致许多组织和领域中的利益相关者之间面临更大的合作挑战。
考虑到上述因素,目前 AI 的数据质量问题是借助为处理其他技术问题创建的错误工具来解决的——它们被视为数据库问题、法律合规性问题或授权协议问题。
在团队的研究中,美国的应用领域聚焦于生态、气候和福祉,而印度、东非和西非国家的领域与可持续发展目标更紧密地联系在一起,如小额信贷、医疗保健和农业,更是与人类影响直接相关。
图 1 为高风险 AI 中的数据库级联。上文介绍过级联是不透明的,而且会产生长时间的负面效应。级联往往是在上游出发,如数据收集;然后对下游产生影响,如模型部署。红色粗箭头表示数据级联开始变得可见后的复合效果;红色虚箭头表示 ML 数据处理的放弃或重新启动。指标在模型评估中是可见的,如系统度量以及故障或用户反馈。
图 1
表 2 概述了四种核心级联—触发器、影响和信号及其分布。影响的严重程度各不相同,从浪费时间和精力到损害受益者。最严重的数据库级联也是长期存在的,而从业者并不知晓;甚至在某些情况下,需要 2-3 年才能显现。
表2
结论
随着 AI 成为生活中核心决策的重要组成部分,驱动这些模型的数据的质量变得尤为重要。
总而言之,该调查对印度、东非和西非国家以及美国的 53 位 AI 从业者的数据实践和挑战进行了定性研究,这些从业者主要从事健康、野生动物保护、食品系统、道路安全、信贷和环境等前沿、高风险领域的工作。
研究团队观察并展示了数据库级联,对 AI 模型而言,一般表现为长期性、不可见和复合效应。这些影响通常是在高风险领域应用传统 AI/ML 实践的结果——许多传统实践没有整齐地转移,并时常造成严重的影响,如社区损害、放弃项目和重新进行数据收集等。
个人可以尝试在模型开发过程中避免数据库级联,但在 AI 实践中如何看待数据,需要的是一种更广泛、系统的方法来实现结构性、可持续的转变。哪怕是从业者对数据质量的重要性有共识的领域,混乱、冗长和不透明的数据库级联也发人深省地普遍存在。
由此,团队倡议,将数据视为一项“至关重要的工作”,积极关注数据的优质程度——关注数据 pipeline 的实践、政治和人的价值观,通过使用流程、标准、基础设施和激励措施来提高数据的质量和地位。虽然团队的研究分析仅限于高风险的 AI 项目,但依旧坚信,这些挑战可能以或多或少的放大形式存在于所有 AI 开发任务中。