Nature|ChatGPT和生成式AI对科学意味着什么?
新智元
共 7320字,需浏览 15分钟
·
2023-02-13 01:05
新智元报道
来源:科技世代千高原 编辑:好困【新智元导读】研究人员对人工智能的最新进展感到兴奋,但也感到忧虑。
文章地址:https://www.nature.com/articles/d41586-021-00530-0
「我印象非常深刻,」在费城宾夕法尼亚大学工作的 Pividori 说。「这将帮助我们提高研究人员的工作效率。」其他科学家表示,他们现在经常使用 LLM,不仅是为了编辑手稿,也是为了帮助他们编写或检查代码以及集思广益。 「我现在每天都用 LLM,」位于雷克雅未克的冰岛大学的计算机科学家 Hafsteinn Einarsson 说。 他从 GPT-3 开始,但后来改用 ChatGPT,这有助于他编写演示幻灯片、学生考试和课程作业,并将学生论文转化为论文。「许多人将其用作数字秘书或助理,」他说。 LLM是搜索引擎、代码编写助手甚至聊天机器人的一部分,它可以与其他公司的聊天机器人协商以获得更好的产品价格。 ChatGPT 的创建者,加利福尼亚州旧金山的 OpenAI,宣布了一项每月 20 美元的订阅服务,承诺更快的响应时间和优先访问新功能 (其试用版仍然免费)。 已经投资 OpenAI 的科技巨头微软在 1 月份宣布进一步投资,据报道约为 100 亿美元。 LLM注定要被纳入通用的文字和数据处理软件中。生成式 AI 未来在社会中的普遍存在似乎是有把握的,尤其是因为今天的工具代表了这项技术还处于起步阶段。 但 LLM 也引发了广泛的关注——从他们返回谎言的倾向,到担心人们将 AI 生成的文本冒充为自己的文本。文章地址:https://www.nature.com/articles/d41586-023-00288-7 当Nature向研究人员询问聊天机器人(例如 ChatGPT)的潜在用途时,尤其是在科学领域,他们的兴奋中夹杂着忧虑。 「如果你相信这项技术具有变革的潜力,那么我认为你必须对此感到紧张,」奥罗拉科罗拉多大学医学院的Greene说。 研究人员表示,很大程度上将取决于未来的法规和指南如何限制 AI 聊天机器人的使用。
流利但不真实
当 LLM 收到提示时(例如 Greene 和 Pividori 精心设计的重写部分手稿的请求),他们只是逐字吐出任何在文体上似乎合理的方式来继续对话。 结果是 LLM 很容易产生错误和误导性信息,特别是对于他们可能没有多少数据可以训练的技术主题。LLM 也不能显示其信息的来源;如果被要求撰写学术论文,他们会编造虚构的引文。 「不能相信该工具能够正确处理事实或生成可靠的参考资料,」Nature Machine Intelligence 杂志 1 月份在 ChatGPT 上发表的一篇社论指出。
文章地址:https://www.nature.com/articles/d41586-023-00107-z 有了这些注意事项,ChatGPT 和其他 LLM 可以成为研究人员的有效助手,这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案,例如计算机代码的解释或建议是否正确。 但是这些工具可能会误导天真的用户。 例如,去年 12 月,Stack Overflow 暂时禁止使用 ChatGPT,因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的 LLM 生成的答案所淹没。 这对搜索引擎来说可能是一场恶梦。
缺点能克服吗?
一些搜索引擎工具,例如以研究人员为中心的 Elicit,解决了 LLM 的归因问题,首先使用它们的功能来指导对相关文献的查询,然后简要总结引擎找到的每个网站或文档——因此产生明显引用内容的输出(尽管 LLM 可能仍会错误总结每个单独的文档)。 建立 LLM 的公司也很清楚这些问题。 去年 9 月,DeepMind 发表了一篇关于名为 Sparrow 的「对话智能体」的论文。 最近,首席执行官兼联合创始人 Demis Hassabis 告诉《时代》杂志,该论文将在今年以私人测试版的形式发布。 报道称 ,其 目标是开发包括引用消息来源的能力在内的功能。 其他竞争对手,例如 Anthropic,表示他们已经解决了 ChatGPT 的一些问题。
一些科学家说,目前,ChatGPT 还没有接受足够专业的内容训练,无法对技术课题有所帮助。 Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生,当他在工作中试用它时,他感到很失望。 「我认为 ChatGPT 很难达到我需要的特异性水平,」他说。(即便如此,Carr 说,当他向 ChatGPT 询问 20 种解决研究问题的方法时,它回复了胡言乱语和一个有用的想法——一个他从未听说过的统计术语,将他引向了学术文献的一个新领域。) 一些科技公司正在根据专业科学文献对聊天机器人进行训练——尽管它们也遇到了自己的问题。 去年 11 月,拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的 LLM 项目,该项目接受过科学摘要训练,旨在使其特别擅长制作学术内容和回答研究问题。 在 用户让它产生不准确和种族主义之后,该演示已从公共访问中撤出(尽管其代码仍然可用)。 「不再可能通过随意滥用它来获得一些乐趣。开心吗?」Meta 的首席人工智能科学家 Yann LeCun在推特上回应批评。
安全与责任
强制诚实使用
文章地址:https://www.nature.com/articles/d41586-023-00191-1 一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此,其中心思想是使用 LLM 本身来发现 AI 创建的文本的输出。 例如,去年 12 月,新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了GPTZero。 这种 AI 检测工具以两种方式分析文本。 一个是「困惑度」,衡量LLM对文本的熟悉程度。 Tian 的工具使用 了一个早期的模型,称为 GPT-2; 如果它发现大部分单词和句子都是可预测 的,那么文本很可能是人工智能生成的。 另一个是「突发性」,用于检查文本的变化。人工智能生成的文本在语气、节奏和困惑度方面往往比人类编写的文本更一致。 出于科学家的目的,由反剽窃软件开发商 Turnitin 公司开发的工具可能特别重要,因为 Turnitin 的产品已被世界各地的学校、 大学和学术出版商使用。 该公司表示,自 GPT-3 于 2020 年发布以来,它一 直在开发人工智能检测软件,预计将在今年上半年推出。 此外,OpenAI 自己也已经发布了 GPT-2 的检测器,并在 1 月份发布了另一个检测工具。
然而,这些工具中没有一个声称是万无一失的,尤其是在随后编辑 AI 生成的文本的情况下。 对此,德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说,检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示,在测试中,其最新工具在 9% 的情况下将人类编写的文本错误地标记为 AI 编写的,并且仅正确识别了 26% 的 AI 编写的文本。Aaronson 说,例如,在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前,可能需要进一步的证据。 另一个想法是让人工智能内容带有自己的水印。去年 11 月,Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的方法。虽然它尚未发布,但在 1 月 24 日发布的预印本中,由马里兰大学帕克分校的计算机科学家 Tom Goldstein 领导的团队提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器,以创建 LLM 被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹,这些单词可以通过统计方式识别,但对读者来说并不明显。编辑可能会消除这种痕迹,但 Goldstein 认为这需要更改超过一半的单词。 Aaronson 指出,加水印的一个优点是它永远不会产生误报。如果有水印,则文本是用 AI 生成的。不过,它不会是万无一失的,他说。「如果你有足够的决心,肯定有办法击败任何水印方案。」检测工具和水印只会让欺骗性地使用 AI 变得更加困难——并非不可能。 与此同时,LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI 有望在今年发布 GPT-4)——包括专门针对学术或医学工作的工具。12 月下旬,谷歌和 DeepMind 发布了一份关于名为 Med-PaLM 的以临床为重点的预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题,尽管它仍然有缺点和不可靠。 加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长 Eric Topol 表示,他希望在未来,包括 LLM 在内的 AI 甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和了解这种疾病。反对身体扫描图像的文学。但他强调,这一切都需要专家的明智监督。 生成式人工智能背后的计算机科学发展如此之快,以至于每个月都会出现创新。研究人员如何选择使用它们将决定他们和我们的未来。「认为在 2023 年初,我们已经看到了这一切的结束,这太疯狂了,」Topol 说。「这真的才刚刚开始。」 参考资料: https://www.nature.com/articles/d41586-023-00340-6
评论