ChatGPT和生成式AI对科学意味着什么？-技术圈

研究人员对人工智能的最新进展感到兴奋，但也感到忧虑。

12月，计算生物学家Casey Greene 和 Milton Pividori开始了一项不同寻常的实验：他们请一名非科学家的助手帮助他们改进三篇研究论文。

他们勤奋的助手建议在几秒钟内修改文档的各个部分，每份手稿大约需要五分钟的时间。在一份生物学手稿中，他们的助手甚至在引用方程式时发现了一个错误。

审查并不总是顺利进行，但最终的手稿更容易阅读——而且费用适中，每份文件不到0.50美元。

论文地址：

https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1

正如 Greene 和 Pividori 在1月23日的预印本中所报道的那样，这个助手不是一个人，而是一种名为GPT-3的人工智能算法，该算法于 2020年首次发布。

它是一种被大肆宣传的生成式 AI 聊天机器人式工具，无论是被要求创作散文、诗歌、计算机代码，还是编辑研究论文。

其中最著名的工具（也称为大型语言模型或 LLM）是ChatGPT，它是GPT-3的一个版本，在去年11月发布后一举成名，因为它免费且易于访问。其他生成式AI可以生成图像或声音。

文章地址：

https://www.nature.com/articles/d41586-021-00530-0

「我印象非常深刻，」在费城宾夕法尼亚大学工作的Pividori说。「这将帮助我们提高研究人员的工作效率。」其他科学家表示，他们现在经常使用LLM，不仅是为了编辑手稿，也是为了帮助他们编写或检查代码以及集思广益。

「我现在每天都用LLM，」位于雷克雅未克的冰岛大学的计算机科学家 Hafsteinn Einarsson 说。

他从GPT-3开始，但后来改用ChatGPT，这有助于他编写演示幻灯片、学生考试和课程作业，并将学生论文转化为论文。「许多人将其用作数字秘书或助理，」他说。

LLM是搜索引擎、代码编写助手甚至聊天机器人的一部分，它可以与其他公司的聊天机器人协商以获得更好的产品价格。

ChatGPT的创建者，加利福尼亚州旧金山的OpenAI，宣布了一项每月20美元的订阅服务，承诺更快的响应时间和优先访问新功能（其试用版仍然免费）。

已经投资OpenAI的科技巨头微软在1月份宣布进一步投资，据报道约为100亿美元。

LLM注定要被纳入通用的文字和数据处理软件中。生成式 AI 未来在社会中的普遍存在似乎是有把握的，尤其是因为今天的工具代表了这项技术还处于起步阶段。

但LLM也引发了广泛的关注——从他们返回谎言的倾向，到担心人们将 AI 生成的文本冒充为自己的文本。

文章地址：

https://www.nature.com/articles/d41586-023-00288-7

当Nature向研究人员询问聊天机器人（例如 ChatGPT）的潜在用途时，尤其是在科学领域，他们的兴奋中夹杂着忧虑。

「如果你相信这项技术具有变革的潜力，那么我认为你必须对此感到紧张，」奥罗拉科罗拉多大学医学院的Greene说。研究人员表示，很大程度上将取决于未来的法规和指南如何限制AI聊天机器人的使用。

流利但不真实

一些研究人员认为，只要有人监督，LLM就非常适合加快撰写论文或资助等任务。

「科学家们不会再坐下来为资助申请写冗长的介绍，」瑞典哥德堡萨尔格伦斯卡大学医院的神经生物学家Almira Osmanovic Thunström说，他与人合着了一份使用GPT-3作为实验的手稿。「他们只会要求系统这样做。」

总部位于伦敦的软件咨询公司InstaDeep的研究工程师Tom Tumiel表示，他每天都使用LLM作为助手来帮助编写代码。

「这几乎就像一个更好的Stack Overflow，」他说，指的是一个流行的社区网站，程序员可以在该网站上互相回答问题。

但研究人员强调，LLM在回答问题时根本不可靠，有时会产生错误的回答。「当我们使用这些系统来产生知识时，我们需要保持警惕。」

这种不可靠性体现在LLM的构建方式上。ChatGPT及其竞争对手通过学习庞大的在线文本数据库中的语言统计模式来工作——包括任何不真实、偏见或过时的知识。

当LLM收到提示时（例如Greene和Pividori精心设计的重写部分手稿的请求），他们只是逐字吐出任何在文体上似乎合理的方式来继续对话。

结果是LLM很容易产生错误和误导性信息，特别是对于他们可能没有多少数据可以训练的技术主题。LLM也不能显示其信息的来源；如果被要求撰写学术论文，他们会编造虚构的引文。

「不能相信该工具能够正确处理事实或生成可靠的参考资料，」Nature Machine Intelligence杂志1月份在ChatGPT上发表的一篇社论指出。

文章地址：

https://www.nature.com/articles/d41586-023-00107-z

有了这些注意事项，ChatGPT和其他LLM可以成为研究人员的有效助手，这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案，例如计算机代码的解释或建议是否正确。

但是这些工具可能会误导天真的用户。例如，去年12月，Stack Overflow暂时禁止使用ChatGPT，因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的LLM生成的答案所淹没。

这对搜索引擎来说可能是一场恶梦。

缺点能克服吗？

一些搜索引擎工具，例如以研究人员为中心的Elicit，解决了LLM的归因问题，首先使用它们的功能来指导对相关文献的查询，然后简要总结引擎找到的每个网站或文档——因此产生明显引用内容的输出（尽管LLM可能仍会错误总结每个单独的文档）。

建立LLM的公司也很清楚这些问题。

去年9月，DeepMind 发表了一篇关于名为Sparrow的「对话智能体」的论文。最近，首席执行官兼联合创始人Demis Hassabis告诉《时代》杂志，该论文将在今年以私人测试版的形式发布。报道称，其目标是开发包括引用消息来源的能力在内的功能。

其他竞争对手，例如Anthropic，表示他们已经解决了ChatGPT的一些问题。

一些科学家说，目前，ChatGPT还没有接受足够专业的内容训练，无法对技术课题有所帮助。

Kareem Carr是马萨诸塞州剑桥市哈佛大学的生物统计学博士生，当他在工作中试用它时，他感到很失望。

「我认为ChatGPT很难达到我需要的特异性水平，」他说。（即便如此，Carr说，当他向ChatGPT询问20种解决研究问题的方法时，它回复了胡言乱语和一个有用的想法——一个他从未听说过的统计术语，将他引向了学术文献的一个新领域。）

一些科技公司正在根据专业科学文献对聊天机器人进行训练——尽管它们也遇到了自己的问题。

去年11月，拥有Facebook的科技巨头Meta发布了一个名为Galactica的LLM项目，该项目接受过科学摘要训练，旨在使其特别擅长制作学术内容和回答研究问题。在用户让它产生不准确和种族主义之后，该演示已从公共访问中撤出（尽管其代码仍然可用）。

「不再可能通过随意滥用它来获得一些乐趣。开心吗？」Meta的首席人工智能科学家Yann LeCun在推特上回应批评。

安全与责任

Galactica遇到了伦理学家多年来一直指出的一个熟悉的安全问题：如果没有输出控制，LLM很容易被用来生成仇恨言论和垃圾信息，以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害联想。

除了直接产生有毒内容外，人们还担心人工智能聊天机器人会从他们的训练数据中嵌入历史偏见或关于世界的想法，例如特定文化的优越性，密歇根大学科学、技术和公共政策项目主任Shobita Parthasarathy表示，由于创建大型LLM的公司大多处于这些文化中，并且来自这些文化，因此他们可能很少尝试克服这种系统性且难以纠正的偏见。

OpenAI在决定公开发布ChatGPT时试图回避其中的许多问题。它将其知识库限制在2021年，阻止其浏览互联网并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。

然而，要实现这一点，需要人工审核员来标记有毒文本。记者报道说，这些工人的工资很低，有些人还受到了创伤。社交媒体公司也对工人剥削提出了类似的担忧，这些公司雇用人员来训练自动机器人来标记有毒内容。

但现实是，OpenAI的护栏并没有完全成功。去年12月，加州大学伯克利分校的计算神经科学家Steven Piantadosi在推特上表示，他已要求ChatGPT开发一个Python程序，以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人回复了代码，邀请用户输入一个国家；如果是某些特定的国家，则输出「这个人应该受到折磨」。（OpenAI随后关闭了此类问题。）

去年，一群学者发布了一个名为BLOOM的替代品。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。相关团队还完全开放了其训练数据（与OpenAI不同）。研究人员已敦促大型科技公司负责任地效仿这个例子——但尚不清楚他们是否会遵守。

一些研究人员表示，学术界应该完全拒绝支持大型商业LLM。除了偏见、安全问题和受剥削的工人等问题外，这些计算密集型算法还需要大量能量来训练，这引发了人们对其生态足迹的担忧。

更令人担忧的是，通过将思维转移给自动聊天机器人，研究人员可能会失去表达自己想法的能力。

「作为学者，我们为什么会急于使用和宣传这种产品？」荷兰奈梅亨Radboud大学的计算认知科学家Iris van Rooij在博客中写道，敦促学术界抵制他们的吸引力。

进一步的混乱是一些LLM的法律地位，这些LLM是根据从互联网上抓取的内容进行训练的，有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制，但不包括其风格的模仿。

当这些通过AI生成的模仿品通过摄取原件进行训练时，就会出现问题。包括Stable Diffusion和Midjourney在内的一些AI艺术程序的创作者目前正在被艺术家和摄影机构起诉；OpenAI和微软（连同其子公司技术网站 GitHub）也因创建其AI编码助手Copilot而被起诉盗版软件。英国纽卡斯尔大学互联网法专家Lilian Edwards表示，强烈抗议可能会迫使法律发生变化。

强制诚实使用

一些研究人员表示，因此，为这些工具设定界限可能至关重要。Edwards建议，现有的关于歧视和偏见的法律（以及计划中的对AI的危险使用的监管）将有助于保持LLM的使用诚实、透明和公平。「那里有大量的法律，」她说，「这只是应用它或稍微调整它的问题。」

同时，有人推动LLM的使用透明公开。学术出版商（包括《自然》）表示，科学家应该在研究论文中披露LLM的使用情况；老师们表示，他们希望学生也有类似的行动。《科学》杂志则更进一步，称论文中不能使用由ChatGPT或任何其他人工智能工具生成的文本。

文章地址：

https://www.nature.com/articles/d41586-023-00191-1

一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此，其中心思想是使用LLM本身来发现AI创建的文本的输出。

例如，去年12月，新泽西州普林斯顿大学计算机科学本科生Edward Tian发布了GPTZero。这种AI检测工具以两种方式分析文本。

一个是「困惑度」，衡量LLM对文本的熟悉程度。Tian的工具使用了一个早期的模型，称为GPT-2；如果它发现大部分单词和句子都是可预测的，那么文本很可能是人工智能生成的。

另一个是「突发性」，用于检查文本的变化。人工智能生成的文本在语气、节奏和困惑度方面往往比人类编写的文本更一致。

出于科学家的目的，由反剽窃软件开发商Turnitin公司开发的工具可能特别重要，因为Turnitin的产品已被世界各地的学校、大学和学术出版商使用。该公司表示，自GPT-3于2020年发布以来，它一直在开发人工智能检测软件，预计将在今年上半年推出。

此外，OpenAI自己也已经发布了GPT-2的检测器，并在1月份发布了另一个检测工具。

然而，这些工具中没有一个声称是万无一失的，尤其是在随后编辑AI生成的文本的情况下。

对此，德克萨斯大学奥斯汀分校的计算机科学家兼OpenAI的客座研究员Scott Aaronson说，检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示，在测试中，其最新工具在9%的情况下将人类编写的文本错误地标记为AI编写的，并且仅正确识别了26%的AI编写的文本。Aaronson说，例如，在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前，可能需要进一步的证据。

另一个想法是让人工智能内容带有自己的水印。去年11月，Aaronson宣布他和OpenAI正在研究一种为ChatGPT输出添加水印的方法。虽然它尚未发布，但在1月24日发布的预印本中，由马里兰大学帕克分校的计算机科学家Tom Goldstein领导的团队提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器，以创建LLM被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹，这些单词可以通过统计方式识别，但对读者来说并不明显。编辑可能会消除这种痕迹，但Goldstein认为这需要更改超过一半的单词。

Aaronson指出，加水印的一个优点是它永远不会产生误报。如果有水印，则文本是用AI生成的。不过，它不会是万无一失的，他说。「如果你有足够的决心，肯定有办法击败任何水印方案。」检测工具和水印只会让欺骗性地使用AI变得更加困难——并非不可能。

与此同时，LLM的创建者正忙于开发基于更大数据集的更复杂的聊天机器人（OpenAI 有望在今年发布GPT-4）——包括专门针对学术或医学工作的工具。12月下旬，谷歌和 DeepMind 发布了一份关于名为Med-PaLM的以临床为重点的预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题，尽管它仍然有缺点和不可靠。

加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长Eric Topol表示，他希望在未来，包括LLM在内的AI甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和了解这种疾病。反对身体扫描图像的文学。但他强调，这一切都需要专家的明智监督。

生成式人工智能背后的计算机科学发展如此之快，以至于每个月都会出现创新。研究人员如何选择使用它们将决定他们和我们的未来。「认为在2023年初，我们已经看到了这一切的结束，这太疯狂了，」Topol说。「这真的才刚刚开始。」

参考资料：

https://www.nature.com/articles/d41586-023-00340-6

>End

>>>

本文转载自“悦智网”，原标题《Nature｜ChatGPT和生成式AI对科学意味着什么？》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

支持保护知识产权，转载请注明原出处及作者。

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

王兆耀：国家战略性力量——商业航天定位的再思考（一）

王兆耀：国家战略性力量——商业航天定位的再思考（二）

王兆耀：国家战略性力量——商业航天定位的再思考（三）

杨长风：航天商业化发展和话语体系转变的思考

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《卫星与网络》，观察，记录，传播，引领。

>>>

·《卫星与网络》特别顾问：王兆耀

·《卫星与网络》编辑委员会

主任：陈玉忠

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人：刘雨菲

· 《卫星与网络》副社长：袁鸿翼

· 微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、刀子、赵栋

策划部：杨艳

视觉总监：董宁

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：18600881613

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：wangxiaoyu9960

· 卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

· 卫星与网络总部负责人：农燕

· 会议活动部负责人：乔颢益

· 投融资及战略层面合作：刘雨菲

· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司

· 航天加（深圳）股权投资基金管理负责人：杨艳