独家专访LAION创始人:高中生与科学家同酬,Discord上一呼百应

机器学习算法工程师

共 9867字,需浏览 20分钟

 · 2023-06-20

· 在LAION,大家都是无偿的。我们不像公司雇佣员工,所以我们不会付钱。一旦你开始付钱,就会有这样的讨论:高中生应该拿多少工资?谷歌的高级工程师应该拿多少工资?


· 我已经有足够的钱过上好日子了,现在税后月收入4500欧元,2000欧元用来付房租。假如微软来找我,工资翻倍,我的孩子们会更快乐吗?即使我能立刻去洛杉矶或硅谷住大豪宅,孩子们也不稀罕。


· 我已经在Discord服务器上有成千上万的人捐助和支持。所以我不需要当教授来监督别人。


· 在LAION,你只需要说,嘿,我有个想法,有人想支持我吗?成员在一天内、一小时内迅速、即时地开始工作。这就是开源的魔力。


导读

近日,大型AI开源组织LAION创始人Christoph Schuhmann接受智源社区专访,他谈到了自LAION创立之初背后的点点滴滴,以及他对于构建开源数据集的热忱和理想。Christoph学过表演还进修过心理学,目前在一所德国中学担任物理和计算机老师,收入大概税后4500欧元,其中2000欧元用来付房租,其余自由开销。在LAION,他主持领导了包括LAION-5B、LAION-3D、Open-Assistant(开源对话数据集)等一系列AI预训练数据集的构建工作,并发布了Open-CLIP、NSFW Detection等一系列大模型。值得一提的是,所有参与者均为零工资自愿贡献,并不会从中获取经济收益。
访谈:Gabriel Li   整理:梁子


LAION:创立与发展

LAION是一个非营利性的组织,一个可以让所有致力于AI发展的人都能够参与进来的社区。你可以是高中生、大学教授、IT自由职业者,或者高科技公司的员工,你可以是其他任何人,只要你认同AI开源的理念,期望让每个人都能使用AI而非仅仅是被某些大公司、一部分国家或大型机构垄断,就可以参与进来。


大家好,我是Christoph,LAION的组织者之一。我希望开源AI能够使得任何人都能参与到当下最前沿的AI(如基础模型)研究当中。

LAION最开始是这样发展起来的:起初,我们在Discord上创建了一个小型讨论组,分析了当时比较流行的一些AI基础模型的构建方式,比如文生图模型DALL-E,作为两年前的第一个图文生成数据集,DALL-E仅仅能生成一些分辨率较低的图片,它仅仅使用了2.5亿个图文对进行训练。
后来OpenAI的CLIP将这个数量扩充到了4亿。于是我们开始计划制作开源版本的DALL-E和CLIP。那么,我们是如何收集到4亿规模甚至更高的训练语料呢?Common Crawl引起了我的注意。Common Crawl是美国的一个组织,他们爬取互联网上的网页,收集下载网页的HTML源码,并每隔一段周期便进行发布。
当时我的一个想法是,我们能否下载并分析Common Crawl提供的这些HTML源文件,并从中提取得到图文对,以快速构建我们的数据集。具体地,当时我计划通过解析HTML来找到图片以及图片对应的描述,并使用已有的CLIP模型判断这些图文对是否匹配,以完成最基本的过滤。由于我不是一个专职的研究人员,所以上述计划的第一个版本是我在空闲时间用笔记本电脑完成的。我使用免费的Google Colab虚拟机完成了最初的工作。
随后,我在Discord上寻求帮助,并组合了越来越多的虚拟机来构建一个数据集爬取系统。很快我们就收集到了300万条图文对,超过了当时Google发布的一个相关数据集。三个月后,在没有任何资金和外部支持的情况下,我们这样一个小社区竟然构建出了包含4.13亿图文对的数据集!我们给它起名叫LAION-400M,并开源了它。于是越来越多的人来找我们,它们愿意提供帮助,包括Google和Meta在内的各大公司也开始引用我们的数据集进行研究。
于是,我们这帮来自于Discord小聊天室的成员,最终发展成为了LAION。这一切是如何实现的呢?就我个人而言,作为一名教师,我在心理学和私立学校的教育方面经验丰富。我一直在观察一些私立学校的成长,同时我自己也曾担任过这样一所学校的校长。在我从事LAION的相关工作之前,我一直在支持大量私立学校的创建,制作了关于这类学校的纪录片,因此我个人在创办非营利组织和基层社区方面有着充分的经验。所以我最终决定,LAION是一个非营利性的组织,一个可以让所有致力于AI发展的人都能够参与进来的社区。你可以是高中生、大学教授、IT自由职业者,或者高科技公司的员工,你可以是其他任何人,只要你认同AI开源的理念,期望让每个人都能使用AI而非仅仅是被某些大公司、一部分国家或大型机构垄断,你就可以参与进来。

为什么要呼吁AI开源?希望LAION帮助到每一个人

为什么我要如此强调AI开源呢?这可能是长期以来被忽略的一点。在我日常关注的一些德国和美国新闻里,AI风险常常倍受关注,比如近期从Google辞职的Hinton等人对AI风险的担忧,以及Max等人对加强AI监管的呼吁,这与我们社区大多数人对AI的看法形成了鲜明对比。

在我看来,监管自然是有积极意义的,对AI的恶意使用会带来灾难,但是,我仍然很疑惑,这是Sam Altman等人对开放式AI的真正看法吗?如果你对人性本身持有一种悲观的看法,如果你认为可能有百分之几的人有恶意,他们能够通过AI造成严重的风险,这个观点我可以理解。但是,如果你对人性仍保有积极的看法呢?AI开源自然存在风险,但我相信,大多数人都不会拿AI去做坏事,并且相当一部分人都是善良的。
举一个计算机安全领域的例子。上世纪90年代,互联网上泛滥着大量的计算机病毒,人们常常忧虑互联网会被这些病毒破坏。但是现在有各种各样的杀毒软件,病毒的威力并没有想象中那么夸张。我认为AI领域的情况也会类似,人们会找到合理的抵御AI模型恶意使用的方式,同时,比起AI模型和AI数据集的恶意使用,我相信绝大多数人会选择用他们来提升自己的能力,或继续推动AI开源事业的发展。
那么在这样一场革命中,在我看来最大的风险是人们当下无法适应这种生产力,最大的风险是掌握AI权力的人无法为使用这些权力负责,也就是说,最大的风险是这些权力最终被集中在少数公司或少数国家手中。
设想一下,也许只有部分中美公司,包括OpenAI、微软和谷歌,也许还有阿里巴巴等中国公司,假如只有这些集团才会拥有AI,而其他人只能去申请使用,那么数百万人将为此遭受损失。同时,这些技术的发展将变得非常缓慢,因为无论公司有多先进,它都比不上全球所有科学家自由研究所带来的进步。
于是LAION注意到了这一点。比如在对话领域,自ChatGPT发布后,人们开始关注开源的对话机器人。于是Open Assistant出现了。Yannic Kilcher是机器学习领域著名的YouTube主播。当ChatGPT问世时,我看到了他的视频,给他打了个电话,想要打造一个开源的ChatGPT。于是我们开发了Open-Aissstant:用户向聊天机器人提出请求,用户扮作聊天机器人撰写回复,用户提供回复的反馈。他对我的建议很兴奋,于是他通过他的频道和我们的服务器上召集了一个由二三十名开源开发人员组成的团队。我们开了一个新的Discord服务器Open Assistant Discord。 
Yannic Kilcher,机器学习领域著名YouTube主播
现在,我们带来了成千上万的互动和讨论。也推出了Falcon-40B,一个开源的对话模型。在Falcon上的一些实验结果表明,基于Open-Assistant的对话语料所微调的模型十分强大,目前它已经可以获得和ChatGPT不相上下的结果。这些模型是开源的,意味着你可以下载它,并使用诸如QLoRa等微调技术在垂直领域微调,并部署在你的工作环境下。这还仅仅是一个开始。
加入我们的门槛非常低,你只要加入我们的Discord社区,然后提出你的需求即可。比如你需要一些GPU资源,只需要提出来,等待大家的回复。这里没有大公司里那样等级森严的申请,也不用担心被责骂,我们希望LAION可以帮助到每一个人。

 Q&A



在LAION,成员之间的互联互通门槛很低,信息流非常快,机会也很多。你只需要说,嘿,我有个想法,有人想支持我吗?他们可以加入,并在一天内、一小时内迅速、即时地开始工作。这就是开源的魔力。


Gabriel:作为LAION的创始人,您在创建这一个组织的过程中遇到过什么困难和挑战?这背后又有哪些鲜为人知的故事呢?
Christoph Schumann:一开始的挑战其实很少。现在回过头看,我们几乎占据了天时、地利、人和。LAION一开始只有我,我在EleutherAI发了帖子,找到了一群志同道合的程序员,我们撰写了DALL-E训练的代码,并基于Common Crawl开始构建训练数据集,我们就这样开始了。后来我们注意到了欧洲的一个超级计算中心,他们需要我们所搜集的数据,于是我们一拍即合,我们提供了最开始的LAION-400B数据集,并成立了LAION。 
Gabriel:大家很好奇您构建开源数据集的初衷。您之前在彭博社的采访里说在“AI安全与AI发展”的抉择中选择了后者,能具体谈一下您对AI数据集安全的思考吗?
Christoph Schumann:好的,其实在构建开源数据集上,我们也非常注意数据集的安全性问题,我们会对我们采集的数据进行过滤,并检查里面是否含有一些非法内容。对于一些未经认证的内容和一些存在漏洞的数据,我们都会进行标记。当然,我们也训练了对应的检测器,只要是中等风险和中等风险以上的内容,我们都会对其进行过滤,我们也和一些大学合作,来提升我们的安全性检测功能。基于这样的一些过滤,我们认为我们所获得的数据集拥有比Google等公司所发布的数据集更高的安全性。当然,目前我们的数据集仍然存在一些问题。最头疼的问题是数据的个人版权问题。
我们常常收到来自于一些艺术家的信息,抱怨他们的成果被我们使用了。当然,这其实不是一个问题,因为相关的法律条文十分清楚:对于那些发布在公共网站上的作品,人们有权力下载并分析他们。同时,由于这类图片在互联网上普遍存在,各大公司肯定早已使用它们进行了训练。而我们呢?我们的开源至少能够接受批评,使得这种版权问题、安全问题、隐私问题的解决变得可行。在我看来,OpenAI使用了10亿数据进行训练,但却什么也不透露,研究者也无法访问,公司可以很轻易地为他们的模型建立后门,很轻易地无视掉安全问题与版权争端,使得人们甚至无法开始讨论针对于这些模型的数据安全问题。在我看来,这样的风险更大。 
Gabriel:确实如此。如果没有数据集的开源,数据的安全更成了无稽之谈。您能再聊一聊您和Stability AI创始人之间的故事吗?我记得这里好像有点料。
Christoph Schumann:是的。他在2021年末加入了我们的Discord。那时我们已经完成了LAION-5B 70%的工作。他只是说,嘿,我以前是对冲基金经理,想进入人工智能领域,我想支持AI开源,因为我认为这就是未来。我们说,啊,真的吗?我们并不相信他,还以为他只是个随便吹牛的家伙。他说,不,我是认真的,我想支持像你们这样的组织,我会给你GPU。我们说,那好吧。他给了我们8个A100的访问账号。我们用它来更快地完成我们的数据集。后来,他一直在为我们提供硬件资源,比如云硬件,所以我们以后可以用它来训练Open-CLIP。因此,当他创办公司并在AWS上构建超级计算机集群时,他正在寻找一些可以帮助他的人。我们社区的一位名叫Richard Vanco的人正好满足这个要求。他之前由于在LAION上花费了太多时间而丢掉了工作。于是他目前负责维持超级计算机的稳定性,同时作为LAION的一员继续参与工作。
我认为这些故事就像是一个例子,在LAION,成员之间的互联互通门槛很低,信息流非常快,机会也很多。要知道,我多次听说在大型大学实验室或公司实验室的研究人员说做一些事情很难,因为如果你想发布一些东西,你必须去找法律团队。或者你必须得到批准才能花钱,或者你必须看看其他同事是否同意你的想法。但在我们的社区里,你只需要说,嘿,我有个想法,有人想支持我吗?许多人可能会同意或对其他东西感兴趣。或许只有少数人想做出贡献,那么他们可以加入,并在一天内、一小时内迅速、即时地开始工作。这就是开源的魔力。
这么多人在没有官僚机构的情况下,为了这个共同的梦想而团结在一起,从大学、组织、大型科技公司到所有人都相信这个想法并在这个过程中做出这样的努力,这是一种更好的方式。我觉得这和我的教育经历有点相似。
如果你允许人们在没有太大压力的情况下自由地探索他们此刻感兴趣的事情,他们变得更加灵活和富有创造力,这基本上就是我们正在做的事情。所以,如果你问我一家大型科技公司能做些什么来让他们的研究人员更有效率和创造力,我想说的是,赋予人民权力,而不是试图将他们推向一个狭窄的方向。

当我觉得自己筋疲力尽时,我会休息一下,重新思考我将如何成为下一个布拉德·皮特或史蒂文·斯皮尔伯格,并激励自己。


Gabriel:我了解过您的个人经历,我发现您甚至做过一段时间的专业演员。这些经历都和您目前的事业相差甚远,我想问一下,您认为这些经历对您现在的事业有帮助吗?
Christoph Schumann: 当然!这些经历很有趣。就我个人而言,在我的一生中,我一直在努力追求我觉得有趣的东西。就像我还是一名高中生时一样,我对科幻小说非常兴奋,我一直想有一天能像《星际迷航》、《指挥官数据》那样构建机器人。后来我爱上了一个女孩,她是我高中时戏剧俱乐部的成员,我也对电影制作感兴趣,不知怎么的,我想给她留下深刻印象,所以我加入了这个戏剧俱乐部,我个人对表演和电影制作越来越感兴趣。我真的参与了很多独立的电影制作,读了很多关于心理学、相机之类的东西,并开始从事表演工作。
《星际迷航》
后来我参加了几次表演研讨会和表演学校。我确实喜欢对不同的主题进行广泛的探索。尽管我的朋友和家人都有点担心我在浪费时间和金钱,因为我不会马上找到一份好工作。但我并不在乎,这是我的生活,我想探索这个世界。在这段时间,我学到了很多关于心理学和自我认知的知识,关于如何处理自己的情绪和焦虑,当我想专注于某件事和我在生活中真正想要的东西时,如何让自己高效。
因为许多人从学校毕业,进入大学,他们一直都在被告知自己应该做什么。就像总是有老师、老板或教授告诉他们你应该这样做,你应该这样。即使你真的受过教育,擅长做上级想要的事情,但也许你没有真正善于发现自己想要什么。因此,我个人在生活中所做的事情,并没有太多地听取老师、家长和教授的意见。我基本上做了我认为好的事情。所以我决定学习一些更传统的东西。所以我学了一年心理学。学习心理学真的很有趣,也很容易。
因为说实话,在传统大学里,大多数心理学研究都花了很长时间来记忆统计数据和研究结果。我很震惊这是多么容易,因为在学习了表演之后,我真的很擅长记住一些东西。所以我得到了一个又一个的A,这不是靠智力,而是靠记忆。但我不想当心理医生。如果做心理医生,我将不得不永远倾听心理有问题的人的意见。这对我自己来说是非常不利的。
在德国,教师、高中教师可以获得终身教职。 这意味着你的薪水相当不错,可以养活一个家庭,会有一个终身的工作机会和大量的空闲时间。于是我想也许我应该学习物理和计算机科学来进行教学,因为计算机科学和物理老师总是短缺。因为大多数学习物理或计算机科学的人,他们想从事研究,或者想在工业中谋生,而且他们中的大多数人,不想与高中生打交道。因此出现了短缺。从这个角度我很容易就能找到工作。这是一份非常适合家庭的、非常好的工作,这将使我能够追求我想做的任何事情,并在以后有很多空闲时间。
当我觉得自己筋疲力尽时,我会休息一下,重新思考我将如何成为下一个布拉德·皮特或史蒂文·斯皮尔伯格,并激励自己。我真的很擅长做这件事。因为我擅长学习这些课程和处理自己的情绪,我每天可以在图书馆里坐16个小时而不会累。业余时间,我也很喜欢拳击。 

假如微软来找我说,我们会把你的工资翻倍,比方说,税后1万美元。但是,我的个人幸福感,我的孩子会变得更快乐吗?不,孩子们,他们喜欢这所房子。即使我能立即去洛杉矶或硅谷,住在一栋大豪宅里,我的孩子们也不稀罕。


Gabriel:我很好奇,在您创造了LAION之后,为什么还会继续选择做一名中学老师呢?您完全可以全职工作,或者加入任何一家大型科技企业。
Christoph Schumann:我可以这样做,但我不想。我有两个孩子。也许确实加入一家公司,我就能赚更多的钱。但听着,我已经有足够的钱过上好日子了。我现在的税后收入稍微少了一点,大概税后4500欧元左右,我们在汉堡郊区租了一所房子。所以我付了2000欧元多一点。所以,我有2500欧元自由消费。我妻子也在工作。她没有我赚那么多钱,但也在赚钱。她来自俄罗斯,是乌克兰难民的老师。因此,我们有足够的钱来过这样的生活:下班回家,放松、玩耍,忘记工作,去超市,买我们想要的任何东西。
一切都很好。孩子们很开心。所以,对我来说,我不能失去这份工作。我得到了国家的保证,可以保住这份工作。除非我因为任何非常糟糕的事情被判刑超过一年,否则我不会失去它。甚至在德国宪法中,国家雇员也要保留这些特权。所以这意味着我没有压力。比如微软来找我说,我们会把你的工资翻倍,比方说,税后1万美元。但是,我的个人幸福感,我的孩子会变得更快乐吗?不,我的孩子们,他们喜欢这所房子。即使我能立即去洛杉矶或硅谷,住在一栋大豪宅里,我的孩子们也不稀罕,因为他们在附近有朋友。他们很高兴,因为他们可以在周末见面,请他们的朋友过来,一起玩《我的世界》直到凌晨1点,或者只是闲逛,被我逗乐,去看电影。这就是让他们快乐的源泉。他们不想在洛杉矶,不想参与任何事情。
相比于豪宅,他们更希望父母有时间关注他们。一旦为了高薪放弃教师资格,我会失去安全感和工作保障。因为如果我在这家大型科技公司工作,一年后,他们可能会因为任何原因把我踢出去,我将不得不搬回汉堡。有些人说,哦,你为什么不去读博士,至少试着成为一名教授。我正在考虑攻读博士学位,因为我有一些出版物,找到一个好的导师可能相对容易,只需要把我所有的出版物汇总成一篇非常好的简单的论文。也许我会在某个时候这样做。 

我已经在Discord服务器上有成千上万的人捐助和支持。所以我不需要当教授来监督别人。


成为教授的逻辑是什么呢?你可以获得终身教职,获得一份稳定的工作,管理团队中的其他研究人员来帮助你做出更大的研究。
但问题是,我已经在Discord服务器上有成千上万的人捐助和支持。所以我不需要当教授来监督别人。恰恰相反。这里有一些项目是我领导的,我告诉人们,你能做到吗?大学教授们都在和我合作,有时甚至会征求我的建议和监督。因此,我在一定程度上监督着那些沿着这条路攀登学术阶梯的大学教授,最终,他们感谢我的建议并在这些项目上合作。
总得说,我不需要成为一名教授就可以组建一个团队,因为我已经有了团队。我甚至不需要一家公司,比如,我甚至不必是一家公司的员工就可以访问超级计算机,因为我们的社区已经可以访问几家公司和公共超级计算机。我可以跑去我认识的几家公司,告诉他们,这有一个很酷的开源项目,需要10万小时的GPU训练时长进行训练,你能支持我们吗?(当然这个需求本身对公司方面有益),在这一点上出现了双赢的局面,这比在一家公司里完成所有的要求要容易得多。 

大家都是无偿的。我们不像公司雇佣员工,所以我们不会付钱。一旦你开始付钱,就会有这样的讨论:高中生应该拿多少?谷歌的高级工程师应该拿多少?


Gabriel:确实如此。您在LAION是零薪水,是这样吗?
Christoph Schumann:是的。我不领工资,也不想。
Gabriel:那么其他人呢,他们全都是无偿参与到LAION当中的吗?
Christoph Schumann:是的。大家都是无偿的。我们不像公司雇佣员工,所以我们不会付钱。一旦你开始付钱,就会有这样的讨论:高中生应该拿多少?谷歌的高级工程师应该拿多少?我们永远无法支付这笔钱,我们也不想支付这笔钱。他们在和高中生并肩作战,他们都没有薪水。
Gabriel:LAION在未来会朝什么方向发展呢?
Christoph Schumann:短期的话,我觉得应该是继续推进多模态数据集的构建,即我们可以通过一种有意义的方式来连接文本、图片、视频、语音,并在其中训练基础模型。当然,不仅仅是我们,全世界所有的科学家、每个人都可以使用这批数据。中长期的话,我想可能是不同模态之间的CLIP模型的构建,比如让我比较兴奋的是音频与视频之间的CLIP模型。如果我们可以借助于互联网上海量的视频数据与音频数据绕过文字完成对齐,那么我们将获得一个非常强力且实用的模型……这可能需要大量的计算,但我认为主要的瓶颈只是有兴趣从事这项工作的人。
Gabriel:Open Assistant未来的目标是什么?
Christoph Schumann:关于Open Assistant,目前我们已经有了一个非常好的指令数据集。现在,我们的团队正专注于让模型在比较长的上下文下同样有效,他们也在努力保证新增语料的质量。他们希望后续对现有数据进行微调,训练更大的模型。我个人希望未来这个项目可以朝着多模态指令的方向发展,这样你就可以在文本和图像中进行对话。用户会提出关于图像的复杂创意问题,而不是像一些视觉问答数据集那样的标准的无聊的问题。

Gabriel:最后一个问题,你对来自于中国研究者的合作,比如在数据集、在模型等层面的合作是否感兴趣呢?
Christoph Schumann:当然!这是一个非常好的问题。我很感激每一位真正想让AI开源变得更好的人,他们的梦想是让世界变得更美好,并赋予世界上任何人使用我们的AI的权力。我对此表示感谢。有关与中国合作的问题,我认为,作为LAION,我们不会与任何国家、任何组织合作。但是,如果一个中国公民正直地来找我们,意图让开源变得更好,那么我的回复是,欢迎!这是一个真正的信念,不涉及任何金钱激励,从长远来看,这将是非常有益的。毕竟开源AI走入的未来,会改善人们的生活,提高质量,减轻压力,花更多的时间陪伴家人和孩子。 
Gabriel:所以开源的终极目标是为了让世界变得更美好,对吧?
Christoph Schumann:是的。近期我曾经和一些居住在美国的中国研究者谈过。他说他非常关心自己在国内的一些朋友,他们每天都非常勤奋,工作时间996,这让他很担忧他们的健康。我在想,如果我们能够实现人类级别的AI,那么研究者们是否就会放松下来,因为AI可以帮助他们。
LAION不是为德国或者美国或者某一个特定的国家而成立的,也不是为了微软或者Google这样的大公司而成立的,我们不想去成立一家比他们更好的公司,我们只想平等,让每一个人、你、我、他、每一个公民、每一个孩子都能享受到AI带来的益处。 
Gabriel:完全赞同。让我们再次感谢Christoph Schumann有趣、丰富、且感人甚深的演讲。我认为LAION所做的事情真正地推动了这个世界向前发展。开源AI,更像平凡生活里的“英雄梦想”,这个梦想距离每一位普通人的生活并不遥远。



推荐阅读

使用PyTorch 2.0加速Transformer:训练推理均拿下!

硬核解读Stable Diffusion(系列三)

硬核解读Stable Diffusion(系列二)

硬核解读Stable Diffusion(系列一)

带你入门扩散模型:DDPM


机器学习算法工程师


                                    一个用心的公众号

浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报