大神卡帕西强烈推荐:通过做项目来学习,坚持“1万小时定律”
共 6949字,需浏览 14分钟
·
2024-07-21 17:00
来源:量子位 本文约4300字,建议阅读9分钟 本文介绍了大神Andrej Karpathy在伯克利黑客马拉松上的演讲再引热议。
现场掌声雷动!大神Andrej Karpathy在伯克利黑客马拉松上的演讲再引热议。
我们似乎正步入一个全新的计算范式,类似于计算机技术在1980年代的转型。
我们正在进入的新范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上下文窗口而不是RAM,这就是大语言模型操作系统(Large Language Model OS, LMOS)。
随后在18分钟左右的演讲中,Karpathy分享了从15年前初次接触人工智能至今的感受。
过程中还回顾了在OpenAI的经历,描述了公司从八个人在公寓里工作到如今成为市值近千亿美元的行业巨头。
不过,正如网友们提醒的:
最精华的在最后,通过做项目来学习,找到合适的奖励模式,让大脑进入良性循环。
get!接下来就让我们一起品品这场被网友评价为“干货满满”的演讲。
以下为卡帕西开幕演讲内容整理
步入全新计算范式
大家好,感谢邀请我来。
我非常喜欢黑客马拉松,因为这里蕴含着巨大的能量和创造力。年轻人在一起学习和创新,这是我最喜欢的地方。我也参加过不少黑客马拉松,所以很高兴能在这里和大家交流。
今日的会场规模之大,超出了我的预期。黑客马拉松的盛大,反映出人工智能在过去十五年间的迅猛发展。
我自15年前首次接触人工智能,那时的AI仅限于小规模学术讨论,专注于数学细节的推敲。
当时我们训练神经网络使用的是来自MNIST的小数字,我们训练受限玻尔兹曼机,使用对比散度训练网络。
而今,AI已非昔日之景象。NVIDIA,作为 GPU 的主要生产商,已跃升为美国市值最大的公司之一,引领行业发展。我们正生活在一个独特且充满活力的时代,众多的黑客马拉松赛事便是明证。
我认为,这一切的背后,是计算本质的深刻变革。我们似乎正步入一个全新的计算范式,类似于计算机技术在1980年代的转型(当时计算机进入了PC时代)。
当前,我们所运用的不再是执行字节指令的中央处理器,而是处理字符串片段的大型语言模型。这些模型,连同上下文窗口、存储设备等,构成了一种新型的计算架构,我将其称为大型语言模型操作系统,或简称LLM OS。
这是一种全新的编程学习对象,我们正在探索其优势与局限,并思考如何将其有效融入产品开发之中。
数周前,OpenAI发布了GPT-4o的演示,这一演示让我们直观感受到了与AI交流的可能性。
它不仅能够回应语音指令,还能进行视觉识别、绘画等多样任务。我强烈推荐各位观看电影《她》,在这部电影里,主角与一个被称为操作系统的AI进行对话,我认为这部电影非常接近现实。
然而,电影中的AI着重于情感智能,而在现实世界中,我们的社会更可能利用这些模型解决数字空间中的各类问题。
这些数字实体不仅可以执行任务,还能进行交流与协作,甚至模拟Slack对话,自动化数字基础设施。尽管物理基础设施的自动化尚处于起步阶段,但其潜力不容忽视。
此外,我还想推荐另一部2004年威尔·史密斯主演的影片《我,机器人》。
这部电影设想了一个机器人在社会中广泛执行任务的未来。剧透一下,在电影里,人们的生活并没有变得更好,反而似乎被机器人所主导。我认为这个设想相当有趣。
电影中描绘的故事发生在2035年,也就是十年后。也许那时我们可能生活在,机器人在我们周围走动、和我们交谈、在实体世界和数字世界中执行任务的环境中。
那会是什么样子?我们如何去编程?我们怎样才能让它们按照我们的预期进行操作?
当你考虑所有这些因素时,你可能会有一种通用人工智能的感觉。这意味着你深刻地理解了,如果这些技术继续发展,我们可能在不远的将来遇见什么。
我们可能在数字领域和物理领域实现大规模的自动化。现在,我不知道你们的想法,但我个人对这个情景感到有些沮丧。这是我用过去几分钟的谈话内容作为输入,用图像生成器生成的图片。实际上,我并不喜欢这幅画。
我觉得我们可以做得更好,我们这里有几千人。在座的各位即将步入AI行业,你们将对这些技术的发展拥有一定的影响力。我们期望的未来,应是人与自然和谐共存,自动化技术隐于幕后,不显山露水。
滚雪球效应
接下来,我想分享一些个人经验。我认为我了解了项目如何变为现实世界的变革。
我发现的第一件很神奇的事情是,有时候很小的项目,就像小雪球一样,实际上可以发展成非常大的项目。
我曾做过一个小型的魔方颜色提取器项目。另外,13年前,我在YouTube上发布了一些游戏编程教程,尝试教人们如何进行游戏编程,我有很多视频游戏。我还有一个有趣的神经进化模拟器。
并非所有这些项目都能产生雪球效应,很多只是探索和尝试。事实上,这三个项目对我来说并没有产生多大的影响。不能说它们是无用功,只是没有为我带来预期的效果,它们仍然对我有所帮助。
但游戏编程教程却以某种方式为我带来了雪球效应,这引导我从游戏编程教程转向了一些颇受欢迎的魔方视频,这激发了我对教学的热情。
后来,当我在斯坦福大学攻读博士学位时,有幸开设并教授了CS231N课程,这是斯坦福大学的首门重点深度学习课程。
之后,我创建了一个YouTube频道,推出了为深度学习和大语言模型制作的“从零到高手”系列,很多人都喜欢这个。
在此基础上,雪球效应继续,我目前非常感兴趣的一个项目是下一步的课程。我将这个课程命名为LLM 101N,目的是教你创建一个讲故事的工具,类似于你可以用来生成故事的ChatGPT。
这个课程的设计思路是让你从零开始学习,从基础知识到创建一个在讲故事领域的类似ChatGPT的工具。
我认为,从头开始学习创建这个工具将是非常有启发性的,也会非常有趣。两三天前,我在GitHub上发布了这个课程,它还很初级,但我对此非常兴奋。对我来说,这就像是一颗滚雪球,越滚越大。它始于13年前的一个小游戏编程。
在OpenAI,我也亲眼见证了类似的过程。正如之前简单提到的,我是OpenAI的创始成员,研究员。
七年前,我在OpenAI工作,这是一些公开的图片,展示了我们八个人在Greg的公寓里工作的情况。
OpenAI的创立就是为了与Google展开竞争。Google就像是一只拥有700亿美元自由现金流的大猩猩。那时,Google几乎雇佣了AI研究行业的一半人员。
这是一个相当有趣的格局,而我们只是八个带着笔记本电脑的人。OpenAI在内部探索了大量的项目,我们聘请了一些非常优秀的人才,许多人的项目并未取得太大进展,但有些人的项目确实取得了成效。
举例来说,在OpenAI早期历史中,有人在研发一个Reddit的聊天机器人。当你瞥见他们的桌子,你可能会问,我们正在试图与Google竞争,你却在开发一个Reddit的聊天机器人。
我们应该做一些更大的事情。因此,这些刚刚起步的项目很容易被忽视,因为它们在初期非常脆弱。
但实际上,Reddit聊天机器人是什么?它是一个语言模型。而且恰好是在Reddit上进行训练的。不过,你完全可以利用任何数据来训练这样的语言模型,并不仅限于Reddit。
当Transformer出现后,这个模型变得更为完善。然后,其应用领域从只有Reddit扩展到许多其他的网页。
突然之间,你就可以看到GPT-1,GPT-2,3,4,最后是GPT-4o的出现。
所以,这个看似并不起眼的Reddit聊天机器人,最终却催生了 GPT-4o,我们现在认为它是计算范式的改变。你可以和它进行对话,它的回应令人惊艳。
今天,OpenAI的估值可能接近1000亿美元。看到小雪球逐渐滚成大雪球的成果,令人难以置信。
所以我想说,你应该坚持你的项目,让它们逐渐积累,也许它们可以变成大雪球。
此外,我坚信Malcolm Gladwell提出的“一万小时”定律。
我认为,成功源于反复的实践和大量的付出。不要过于紧张,我在做些什么?我是成功还是失败?只需简单地统计你投入的时间,一切都会累积起来。
有几个例子可以说明这一点。
几周前,我在周末制作了一个非常粗糙的网站awesomemovies.life。
因为那个周六我想看电影,所以就上线了这个电影推荐引擎网站。
有人在推特上回复我说:“哇,你周末就搞定了,好酷啊。”我对此产生了些许思考,因为我并不觉得这有多么神奇。
这个人没看到的是,这已经是我第20次做这样的网站了,我知道我要做的每一步。
首先,我需要Linode,然后是Flask服务器。我写一些JavaScript,样式表,HTML,然后把这些组合起来。我需要抓取所有这些网页,提取tf.idf 向量,训练SVM。
这些都是我已经做过20次的事情,我甚至有之前项目的代码片段。我只是在重新组合我已有的资源,因此可以在一个周末完成。
另一个例子是我在特斯拉自动驾驶项目中的经历。
大约7、8 年前,我被聘请来领导特斯拉自动驾驶的计算机视觉团队。
加入团队后,我做的第一件事之一就是用PyTorch重新编写计算机视觉深度学习网络训练的代码库。我基本上从头开始重新编写了整个项目,它现在成了项目的核心部分。
对于一些人来说,这在当时看起来可能很惊人,但对我来说并非如此。因为我在读博期间花了五年时间做类似的事情,我清楚地知道需要什么。
我需要训练集,评估集,我需要在PyTorch中的训练循环,我需要配置文件,我需要日志目录,我需要引入 ResNet,我需要做检测,我们正在进行回归和分类。
整个过程,我都预见到了所有步骤,这种预见只有经验才能带来。
因此,真正去尝试达到你的10,000个小时,这真的会有很大的影响,这就是全部。
顺便说一下,10,000个小时,如果你每天工作六小时,大约需要五年。
所以,你需要大约像完成一个博士学位那样的时间来在某个领域发展出专业技能。
墙裂推荐“做项目”
我还发现,保持大脑释放多巴胺其实很有用。你要了解你的心理状况,你的大脑,它是如何运作的,维持活力,如何保持受到启发。特别是,你的大脑就像一个奖励机器,它渴望得到奖励,你需要满足这个需求。
那么,有什么好的方法可以给予奖励呢?
在我的经验中,这可以通过做项目,并且持续发布它们来实现。
首先,项目能让你全面深入地做一些事情。比如,当你去上课时,你通常是在广泛地学习,而项目是让你根据需求来学习。
我认为这是一种非常不同的学习模式,很好地补充了广泛的学习方式,这非常重要。
另一个原因是,发布项目实际上也是一种非常好的策略。
如果你计划发布一些东西,那么你会开始考虑所有可能看到它的人,你的朋友、团队成员、家人和未来的雇主。
因此,这无疑提高了你对自己工作的要求,会让你更努力地去工作。
因为他人会评价你的工作,如果工作质量差,你会感到羞愧,这种压力有时是有帮助的。且当他人关注你的项目时,你会得到满足感。
总的来说,我认为这就是事情的大致运作方式,所传达的信息就是不断的挑战。
希望我们能从小项目做起,共同创造一个美好的未来。谢谢大家。
One More Thing
最后,“keep hacking”的卡帕西最近也开始玩AI视频生成了!
他把《傲慢与偏见》的前几句话做成了视频,用的工具还是大杂烩那种~
据他透露,其“配方”如下:
用Claude完成了第一章,生成了场景和图像的单独提示
用Ideogram按照提示生成图像
用Luma处理图像并将其动画化
用ElevenLabs处理旁白
用Veed进行最终缝合
这一番操作花了大神将近1小时,以至于他在线发问:
对于任何能够提供便利的人来说,这里都有一个巨大的讲故事的机会。谁正在打造第一家100%AI原生电影制作?
那么,你觉得卡帕西的这个视频如何?(欢迎在评论区随意留言)
[1]https://www.youtube.com/watch?v=tsTeEkzO9xc
[2]https://x.com/karpathy/status/1808686307331428852
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU