吴恩达,45岁生日快乐!提出著名二八定律:80%数据+20%模型=更好的AI

新智元

共 3903字,需浏览 8分钟

 ·

2021-04-18 14:55



  新智元报道  

来源:Twitter

编辑:yaxin、LZY

【新智元导读】今天是吴恩达45岁生日。他是国际最权威的ML学者之一,学生遍布世界各地。在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI。他发推称,「大家为自己送上最好的礼物就是,观看这个视频并提出自己的见解」。


今天是吴恩达(Andrew Ng)45岁生日,让我们祝他生日快乐!
 
 
吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视频观看并提出自己的见解。让大家的工作从以模型为中心向以数据为中心的AI转变。」
 
在这个视频中,吴恩达提出了著名二八定律:80%的数据+20%的模型=更好的AI
 
 
他是斯坦福大学计算机科学系和电子工程系副教授,还是在线教育平台Coursera的联合创始人。
 
是当今人工智能和机器学习领域国际最权威的学者之一,学生遍布世界各地。
 
谢谢他带给我们的礼物,也感谢他为机器学习领域做出的贡献!


二八定律:80%的数据+20%的模型=更好的机器学习


机器学习操作(MLOps)——从以模型为中心到以数据为中心的AI这一课程上线的第一天,就引来了全球近3万人的观看。
 
吴恩达开场的第一句话就深入人心:
 
AI = Data + Code
 
他表示,「如果我们80%的工作是数据准备,那么确保数据质量是机器学习团队的重要工作。
 
机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。
 
吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。
 
 
机器学习的进步很大程度上归功于团队下载模型并试图在标准基准数据集上做得更好。所以他们大部分的时间都花在了改进代码,模型或算法上。
 
机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定。但是,当数据集大小适中(<10,000个示例)时,如果数据集良好,则ML(Machine Learning)的团队将取得更快的进步
 
 
所以对于很多问题,我们应该做的不仅是改进代码,而且应该将思维方式转向如何创造出一种更系统的方式来改进数据,这才是很有用的。
 
吴恩达(Andrew Ng)认为如果更多地强调以数据为中心而不是以模型为中心,那么机器学习将快速发展。
 
传统软件是由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。
 
 
当系统运行不正常时,许多团队会本能地尝试改进代码。但是对于许多实际应用而言,集中精力改善数据会更有效。
 
吴恩达(Andrew Ng)提到每个人都应对ML做出80%的数据准备
 
小编快速浏览了一下arxiv,了解到ML研究的方向现在围绕基准测试展开了前所未有的竞争,所以我们更应该充分做好数据准备,争取在竞争中脱颖而出。
 
我们都知道Google具有BERT,则OpenAI具有GPT-3。但是,这些神奇的模型仅解决了业务问题的20%。
 
良好部署的不同之处就在于数据的质量。每个人都可以使用经过预先训练的模型或许可的API。
 
 
根据剑桥研究人员所做的一项研究,最重要的但却经常被忽略的问题就是数据分散。
 
当数据从不同的源流式传输时会出现问题,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。
 
现在,这对于ML工程师来说是一个繁琐的过程,因为需要他们将信息组合成适合机器学习的单个数据集,较大的数据量可能还会使标记变得困难。
 


MLOps是什么?


MLOps,即Machine Learning和Operations的组合,是ModelOps的子集。
 
它是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。
 
 
与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。
 
互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景,你不能指望自己有一百万台拖拉机为自己收集数据。
 
视频地址:https://www.youtube.com/watch?v=06-AZXmwHjo
 
基于MLOps,吴恩达也提出几点建议:
 
  1. MLOps的最重要任务是提供高质量数据。
  2. 标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。
  3. 系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。
  4. 如果训练期间出现错误,那么应当采取以数据为中心的方法。
  5. 如果以数据为中心,对于较小的数据集(<10,000个样本),则数据容量上存在很大的改进空间。
  6. 当使用较小的数据集时,提高数据质量的工具和服务至关重要。
 
一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。
 
 
吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。


在线教育平台Coursera上市,吴恩达身价超4亿美元


值得关注的是,3月31日,在线教育平台Coursera以超过40亿美元的估值首次公开募股(IPO)。吴恩达身价超4亿美元。
 
 
Coursera由斯坦福大学计算机科学系教授Daphne Koller和吴恩达于2012年创办。
 
吴恩达的理想是让世界上每个人能够接受高质量的免费教育。
 
 
没想到的是,吴恩达74岁的父亲Ronald Paul Ng在过去八年的时间里一直在使用自己儿子创办的在线学习平台Coursera,他是儿子最有力的支持者!
 
吴老在Coursera上报名参加的第一门课程名为《模型思维》(Model Thinking),这是密歇根大学(University of Michigan)的一门基于逻辑的在线课程。他甚至还上过自己儿子的课程:吴恩达的深度学习AI课程。
 
吴老不仅是Coursera的第一批学生,他还立志要终身学习!
 
吴恩达曾经还有一次为自己的父亲学完了Coursera上面的146门课发了推特表示庆祝。
 
 
所以吴恩达为什么会创办在线教育平台Coursera呢?
 
 
这是因为多年前,吴恩达收到一本父亲在1980年写的有关机器学习诊断肝脏疾病的论文副本,吴恩达备受鼓舞,他想进一步将机器学习与医疗等行业结合起来,因此创办了Coursera。
 
Coursera旨在同世界顶尖大学合作,在线提供网络公开课程。Coursera的首批合作院校包括斯坦福大学、密歇根大学、普林斯顿大学、宾夕法尼亚大学等美国名校,还有很多世界上非常有名大学与企业与Coursera纷纷合作。
 
Coursera作为MOOC(大型开放式网络课程)中的领头羊,在创立后三年就拥有了160多名员工,由原耶鲁校长担任CEO,Coursera的使命就是让所有人最便捷的获取世界最优质的教育机会,“Universal Access to the World's Best Education”。
 
 
小编也经常在Coursera上面看国外知名大学的网课,真的受益匪浅!看来Coursera成功上市也是志在必得!
 
现在Coursera的股票差不多45美金/股,你们会买吗?
 
 

参考资料:

https://www.163.com/dy/article/FP2LTNA90511831M.html
https://twitter.com/AndrewYNg/status/1383461008920891397
https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/


推荐阅读:

中国要做自己的GPT,万一实现了呢?

AI家,新天地!新智元星舰在这里等你


AI家,新天地。西山新绿,新智元在等你!


【新智元高薪诚聘】主笔、高级编辑、商务总监、运营经理、实习生等岗位,欢迎投递简历至wangxin@aiera.com.cn (或微信: 13520015375)


办公地址:北京海淀中关村软件园3号楼1100


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报