边缘族裔的声音缺席历史档案，机器学习能帮忙吗？-技术圈

大数据文摘出品

来源：VB

编译：张大笔茹

历史档案能能反馈最真实的过去吗？

即使是最官方的记录，关于历史的档案也常常会出错。例如，在南非结束种族隔离制度下的白人统治多年之后的十年中，该国学校使用的书籍仍然没有反映人们的经历。

并且不幸的是，这样的档案馆具有广泛的影响力——人们依靠这些档案来制定公共政策，保存语言和文化并塑造自我认同，观点和价值观。

蒙特利尔AI伦理研究所和微软的研究人员建议使用机器学习来建立全面的档案库，这样做可以弥合文化理解，知识和观点方面的差距。

他们认为，借助机器学习，存档过程中的更多声音可以对社区产生积极影响，尤其是那些历史上被边缘化的档案。

该研究的合著者将探索诸如AI之类的技术如何解决社区数据库和档案馆周围的问题，以使它们更加有用。

该团队首先确定了当前归档实践无法满足服务不足人群的需求和历史的区域。他们发现，土著人民，妇女，儿童，LGBTQIA2 +，老年人，种族灭绝的受害者，种族少数群体，文化少数群体，退伍军人和残障人士经常成为档案工具和历史学家笔下的受害者。

研究人员写道：“少数族裔在网上仍然很难被发现，部分原因是自动归档过程中内容创造者的认知偏见和狭窄，他们知道如何对在线算法游戏化并提高其内容在网上的关注度，内容可发现性被系统确定为高价值档案的意义具有重大影响。”

共同作者表示，这是经过深思熟虑的应用AI发挥作用的地方，这样做可以最大程度地提高档案馆中观点的多样性。例如，在互联网上无法找到索引之外的内容，提高自我记录的低可见性社区的可发现性。人工智能聊天机器人可以与寻求知识的人互动，以增强他们发现相关文物的能力，同时允许被排斥的人发展更好的数字素养技能，将他们置于不同的历史视野中。

合著者没有解决这些系统本身存在的潜在偏见。去年4月的非营利性AI合作组织的首次研究报告中，该团队将目前使用的AI视为不适合自动化审前保释程序，将人员标记为高风险或宣布其他人为低风险并适合从监狱释放。其他的实验来预测GPA，沙砾，迁离，职业培训，裁员和物质困难等事情，揭示了AI算法的偏见本质。最近的一项尝试使用AI来预测哪些大学生将不通过物理课的研究对女性而言不够准确。

尽管存在这些担忧，研究人员仍然对AI及其对为建立更好的理解的人们“提供更全面的文化”的潜力持积极的态度。

合著者写道：“更高可发现性的好处不仅会给边缘化社区，还为其他人提供了积极的连锁反应，使其对这些文化有了更好的了解，从而能够真正真正地欣赏我们共享的文化遗产。在全面性方面，对自动化系统内容的整理将增强档案库中的可用语料库……我们发现，现代基于AI的方法可以在塑造我们共享的文化遗产方面产生更广泛的参与，同时使少数群体能够更好地控制知识。用来代表过去并塑造现在和将来的艺术品。”