百度的世界里,AI没有退路

开发者技术前线

共 11360字,需浏览 23分钟

 ·

2020-10-03 10:43

点击“开发者技术前线”,选择“星标?”
在看|星标|留言,  真爱

来自:雷锋网


PC改变工作,智能手机改变生活,AI则将改变世界。

1


开启魔盒

2020年9月15日的上午9点,百度创始人、董事长兼CEO李彦宏再次开启了“AI魔盒”。

相对于2017那场把AI的初步成果面对产业界的发布,这次面向全民的AI盛宴的开启规模之庞大、视角之全面,令人深深感到AI时代时代的迫面而来。

开启的方式自然是直播,然而不同之处在于,这次直播的平台是央视,百度这次玩的很大。

总台央视主持人康辉带领央视重量级团队加盟百度世界2020大会,郑丽、宝晓峰、梁志玮、赵文彬4位主持人和出镜记者会化身AI体验官,在北京、上海、长春等地发起体验式直播——第一次,国家级电视台把一家企业的发布活动以全民视角向全社会播放,不仅前所未有,亦让人深信“新基建是国策”已经开始落地生根。

要登上国家第一媒体平台——央视,百度必须要证明的是,这次发布能带来的是极大的社会正面效益,能带来一次对全社会深刻而生动的AI大启蒙,这从某种程度上反证了,“百度大脑就是中国大脑”所言非虚。

这次活动的核心在于,它用了极为生动的形式,在告诉亿万人,我们的未来生活在AI科技影响下将是如何的便捷而且充满想象力。

今年是2020年,一个不寻常的年份。疫情来袭是这一年的起点,此后,国际形势激烈变化,逆全球化格局震荡,中国部分领先于全球的科技企业在世界范围内遭遇不公正对待和围追堵截……而百度的AI盛宴,似乎正是在给这个时代注入活力和信心。

如果说1978年发表的报告文学《哥德巴赫猜想》是点燃了特殊岁月波折后人们再一次萌发的对科技的崇尚和追赶,那2020年的百度世界大会就是在用如此特殊的形式宣告,这个古老而充满创新动力的国度的土壤上,可以诞生世界级的创新,而无虞危机和绞杀,因为一切的根本这次掌握在一家中国企业手中。

在北京的主会场,李彦宏和康辉共同出镜,讨论全球首次全无人驾驶的在线直播,并在演播厅现场与小度互动,快速认出两人的小度展现了强大的生物识别能力和在家庭、酒店等环境中的各种应用。

然而不仅仅是如此,真正的看点,是基于二十年前康辉和李彦宏的形象、记忆和知识打造的虚拟人“小康”和“小李”,具备认知能力、可机机对话的“终端虚拟人”。

具有认知能力、可以进行机机对话的终端虚拟人,是融合了视觉、语音、语言与知识等多种模态的百度大脑AI技术与我们的生活密切共生的最佳界面之一。

在这一天里,还有许多场景令人难以忘怀。

连线上海佘山世贸洲际酒店的直播中显示,小度合作的酒店客房已达到10万间,行业第一。配置了小度助手的酒店客房,能够实现屋内设施语音操控,实时同步酒店信息和交通等最新信息。与小度机器人连通后,还可通过房间内小度下达指令操控小度机器人配送物品。

直播连线另一处画面,是北京市昌平区国风美唐小区,这个智慧养老的试验社区,为近200户居住老人家里配备了定制的小度智能屏。老人能使用小度播放戏曲、节目,提醒天气,聊天互动带来家人般的陪伴。在身体健康方面,小度可以帮助记录测量指标并将血压等数据信息同步给医生,还能通过小度在线问诊,实时掌握身体健康状态。

当然,当天最令人泪目的,还要属百度执行副总裁沈抖介绍的百度AI寻人项目。

在画面里,沈抖讲了一个叫刘洪江的百度用户的故事,他在走失20年之后,通过百度AI寻人回到亲人身边。24岁的刘洪江,凭着一张4岁时候的照片,找到自己的家人,凭借的正是百度的AI寻人技术。

其实,绝大多数人都不能靠肉眼来分辨一个人儿时和长大后的相貌的。对此,百度用到了跨年龄的人脸识别技术,它采集了人脸的100多个面部特征,通过对小时候的照片和长大后的照片进行比对,匹配到相似度最高的,给出结果……上线3年,已经有1万多走失者与亲人团聚。

……笔者无法在一篇文章的篇幅中概括这次大会的所有内容,但所有的内容其实也都指向一个方向,那就是通过百度的努力,AI已经真实存在和改变着我们的生活,它不再是电影和科幻小说里的黑科技,也不是实验室里的半成品……AI时代,将来已来。

2


从0到1

李彦宏说了这样一番话:“过去的搜索是我们连接信息世界的一个入口,现在的搜索不仅连接信息世界,也连接这个真实的世界,比如搜索的答案可以是一场直播。这将大大降低普通人获得知识和信息的门槛。每一个智能小程序都是一个企业或机构提供的服务,涵盖3600行,可以满足我们日常生活、工作中几乎所有的服务需求。”

谁都知道百度发展AI的技术底蕴来自搜索,搜索本身也在和AI融合,变成一种新的人工智能运用场景,从而彻底结合并融为一体。

但这条发轫自2010年,加速于2015年的路,却是走来一路艰辛。

但李彦宏当年决定让百度走上这条路,本身就有一种家国情怀,本来就料定会有艰辛。

在中国人的精神谱系里,家是国的基础,国是家的延伸,密不可分,所以才有“家国情怀”一说。

AI,就是李彦宏的“家国情怀”。

当年,李彦宏远赴美国求学时,就对AI发生了强烈的兴趣。但却被导师劝说——“学这个是很难找到工作的”……尽管如此,AI已经在李彦宏心中埋下了一颗种子。因此,在把中文搜索做到第一之后,他登高四顾,自然而然的把做为中国AI发展的呼吁者和让百度成为中国AI的推动者,作为一个重大选择决定下来。

这是很小,但很关键的一步。不过,在当时的环境下,外界看不懂、不明白,也没人知道这里面包含的决心。在当时消费互联网的狂欢和移动互联网的红利期中,不太有人注意到,有一家中国企业提出了一个有可能超越传统的技术发展路径、摆脱只重视应用创新不重视基础创新的痼疾,在世界范围内重新定义未来新型基础设施的战略愿景。

然而,预测到这个局面一定会出现的,是李彦宏本人。他在2008年就先知般的讲过这样一番话:“随着中国经济的不断发展和互联网的不断普及,当中国的网民数量成为世界第一后,我们就会先于美国碰到各种各样的互联网问题,如果能够先碰到这个问题,就有机会去先解决这个问题。创新就会源源不断地出现。这种优势,是中国的优势,是别的国家无法仿效的优势”。

他果然言中,如今的AI研究领域,美国和中国是全球唯二的领先国家,这也是中国为数不多的全球领先的信息科学领域之一,而百度则是中国唯一进入世界顶流的中国AI公司。

李彦宏不仅预测,而且行动。21世纪的第二个十年,他先后写了13份有关人工智能的提案,从2015年首次提出“建议设立‘中国大脑’计划到2020年提出“关于构建人工智能新型基础设施,勾画智能经济发展蓝图”。

他8次出入人民大会堂参加政协会议,在最高平台上为AI呼吁,年复一年,乐此不疲。

他20年后再次拿起笔,带头撰写《智能革命》一书,这本书的价值在于,它既是一本“深科普”读物,也是对全球AI发展的同步观察,以及更是中国对于AI发展的即时思考和未来前瞻。因为,在这个赛道上,百度的前方几乎没有“路标”,一切有待自己探索,所以它也是一本《创世纪》。而且,即使以2020年的视角来看,这本书也是完全没有过时的。

同时,百度也顺利成为第一批国家级人工智能创新平台,百度成为人工智能“国家队”。

过去几年,很多人都从一个比较狭窄的视角来看百度的AI事业。一种主流观点是,百度错过了移动互联网业务的黄金发展期,以至于掉队,以至于要寻找一个新的战略制高点,而AI就是这个制高点,因为其它公司都没有在这里提前布局……这种观点被一千遍一万遍重复后,好像就成了一种正确的答案。

真是这样的么?

3


真实的百度AI之路

其实,百度布局AI,并非因为“没有选择”,而是因为“注定要选择”。

刚刚荣膺《财富》杂志2020年度“全球40位40岁以下商界精英”榜单(Fortune 40 Under 40)的百度集团副总裁吴甜,是2006年就加入百度、2010年就进入百度AI团队的“老百度”,也是百度自己培养起来的一代AI行业领袖。

真实生活中的吴甜,没有女强人的彪悍,她衣着简单、笑容甜美,谈话轻声细语但逻辑非常清晰。

“我是学人工智能的,我记得刚进百度的时候,负责开发百度知道的问题推荐系统1.0版本,从要解决的问题出发,我大胆地用了一部分人工智能算法,用推荐算法让提问的人和最有可能提供答案的人增加了彼此间的耦合概率。当时,在搜索和其他产品中自发的应用AI技术的绝非我一个人,而是随着百度追求更好的体验,这种实践越来越多。”吴甜对笔者说。

也就是说,2006或者更早,再到2010年,百度人开始自发的、星星点点的在搜索业务的优化中导入人工智能基因,这五年是百度AI从一个“细胞”发育到一个“儿童”的孕育生长期,也在这个孕育期,百度提出了“框计算”,第一次明确提出把NLP(自然语言处理)、知识图谱等用到搜索中。

等到百度的人工智能“孩子”逐渐长大,该请一个正式的老师来给他发蒙授课了,于是,王海峰出现了。

王海峰是2010年加入百度的,在加入百度之前,他已经是人工智能领域的知名专家。

如果我们稍微回忆一下,在王海峰加入百度开始准备搭建人工智能的体系化研究的2010年,腾讯还在3Q大战的战火中和360打得你死我活,以至于马化腾痛定思痛,要摆脱“模仿式创新”的帽子,搞开放平台;而阿里的阿里云也还刚出发不久,正在希望靠自研的系统去IOE化……当然,这绝并不是贬低其它企业。笔者想说的无非是,就AI而言,其它公司都没有百度布局早,是一个事实,也是百度‘技术型公司’的底蕴决定的,更是其搜索业务的特性所自然催生的。

客观说,2010年以前,百度在AI方面的研发工作一直是在配合具体业务需求下的状态下随机进行,没有基础研究、没有体系化。而2010年后,百度开始有了 “基础技术首席科学家”这样的职位,这个头衔正好说明了,搞了多年的应用技术后,百度要成体系的进行基础技术的根源性创新了。所以我们才说,2010年可能是百度的AI元年。

2010年以后,百度AI从“学步期”进入“小步快跑”阶段。

2011年,百度推出了“百度翻译”,这是百度应用AI技术的创新产品,随后,这一产品不断借助百度NLP技术进行更新迭代,前所未有的巨大流量,也让它得到了前所未有的“数据燃料”。

2013年1月,百度创立全球第一个以深度学习命名的研究院(IDL),李彦宏亲自担任院长。

李彦宏起初并没有考虑出任院长,而是反复考虑院长的人选,最后他才决定:“深度学习这一波起来之后,我觉得是完全不一样的东西,它需要在理论上、算法上,在很多方面有长远的布局和突破,所以从那个时候开始,我们大规模地投入去吸引人才,去推进算法,才决定做研究院,而我这块牌子可能吸引一些需要的人才。”

2014年4月,百度成立了大数据实验室(BDL),同年5月又成立硅谷人工智能实验(SVAIL),这些机构和2015年起不断扩容的百度美国研究中心一道,成为百度在海外招揽人才的重要组成部分。

2015年是百度的AI“大年”,机器人助理 “度秘”开启了个人智能服务时代,无人驾驶事业部成立,李彦宏正式在政协提案里提出“中国大脑”。

而到了2019年底,百度AI专利申请量达5712件,位列中国第一。百度研发人员占比高达61%,AI技术团队实力雄厚,百度CTO王海峰、Ken Church等世界顶级AI专家云集。

为什么百度能够在AI领域在国内持续保持第一?

《荀子》里面说的好:锲而舍之,朽木不折;锲而不舍,金石可镂。蚓无爪牙之利,筋骨之强,上食埃土,下饮黄泉,用心一也。蟹六跪而二螯,非蛇鳝之穴无可寄托者,用心躁也。

4


外部视角

如果说上一章主要是从内部视角来看百度为何全力发展AI,那本章节则从外部视角看过来。

首先一个问题是,为什么全球AI四强(谷歌、微软、百度、FACEBOOK)中就有两家是搜索公司?

第一个解释是,搜索是高度技术密集型的业务。

搜索的本质是帮助人和信息进行最接近完美的匹配,所以搜索就势必涉及对人的表达的深刻理解,也必然产生庞大的交互数据作为深度学习的“燃料”和“语料”。如果说,所有的智能经济的本质都是基于数字化的协同和匹配,那么,搜索的业务形态天然距离智能商业或说是智能经济的本质最接近,这是搜索公司做AI的先天优势。

第二个解释是,AI发展所需要用到的计算能力、分布式计算设备和海量数据,正好是搜索引擎系统的发展的必需。

严格说来,人工智能之所以从上个世纪50年代被提出,到70年代、90年代遭遇两次低谷,主要是计算能力和算法无法验证那些天才的想法。李彦宏很清楚的记得,世界级的人工智能巨擘Geoffrey Hinton在2007年之前就说过,人工智能发展遭遇的挫折“只是源于缺少数据量和计算能力”。

人工智能实在太吃“算力”了,谷歌当年为了优化一个关键词匹配的算法,停掉了公司五大数据中心中最大的一个,用了整整4天来优化一个环节,可谓惊世骇俗。

人工智能需要的分布式计算、存储、响应等等方面的能力远超过其它公司。简单说,搜索业务的基础,就是把整个互联网世界的镜像搬到百度的服务器里来,规模小了、成本高了自然是不行的,所以百度在AI基础设施的自研上布局很早。在国内,单就AI的基础设施方面,百度实在领先太多。

事实上,百度大脑的硬件基础,是国内领先的GPU和FPGA异构服务处理器集群、并发数据处理集群和运营效率最高的数据中心。

现在的共识是,人工智能+大数据+云计算将实现历史性的汇合(简称ABC合流,即AI+Big Data+Cloud),也从中能看出——“做人工智能就是百度的命,没得选”。

除了血脉相连、模式相通,笔者对百度必然走向AI还有第三个解释,那就是AI人才的扎堆效应。

人工智能在2015年井喷之前,圈子实在不是很大,彼此间盘丝挂腾的很容易聚到一起。

和海峰差不多时期接触神经网络的中科院另一个博士叫徐波,后来他当了中科院自动化所所长,徐波教出来一个博士生叫贾磊。

就是这个贾磊后来和王海峰在百度大厦二楼的西河会议室,你一言我一语的敲定了深度学习在语音搜索方面的开端。

百度在人才这个面做的非常好的就是,AI业务启动期的决策层(李彦宏)、核心实操层(王海峰)都是性格随和、心胸开阔之辈,他们的性格特征在延揽人才上起到了很大的作用,百度始终保持了AI人才上的行业最高水平的储备,是百度过去、现在、将来能够在AI领先的原因。能够吸引着些人来,骨子里和百度是个搜索公司终究密不可分,因为这些人才都非常清楚,搜索引擎公司可能是工业界能找到的最好的研究AI的地方。

搞AI的确就是百度的命。

5


李彦宏的角色

对于百度来说,AI发展可不是一星半点的艰辛。

为什么,有三个原因:

1、技术探索走在“无人区”

2、基础研发消耗资源的不确定性

3、商业落地场景需要梳理典范、社会共识

作为中国乃至全球都最先布局AI产业的企业,百度走在“无人区”里,没有可以追随的前路,没有路标,每一步都可能走错,每一步也可能就是一个飞跃。

身负创立引导责任的百度,到底遇到过何等困难,原本不应该是一节的内容,而应该是一本书的内容。

我们只能试着描述一些最突出的困难和挑战。

百度AI的第一个困难是,如何找到基础研发和应用创新的结合部。

前面说了,AI和别的技术很不一样,AI历史上长期处在低潮期,在中国则更是冷门中的冷门,学界缺乏体系性的建设,工业界也没有生态搭建的经验,极少有应用落地,更不要说体系性的对外输出赋能……每一个角度看上去都有未来,但每一个方向都存在不确定性。

这就需要基础性研发和根源性创新结合,并证明自己解决实际问题的能力。

如何完美的解决以上所列的“三合一”难题,百度智能云副总裁李硕,给我们提供了一个很好的案例。

百度AI的第一个困难是,如何找到基础研发和应用创新的结合部。

前面说了,AI和别的技术很不一样,AI历史上长期处在低潮期,在中国则更是冷门中的冷门,学界缺乏体系性的建设,工业界也没有生态搭建的经验,极少有应用落地,更不要说体系性的对外输出赋能……每一个角度看上去都有未来,但每一个方向都存在不确定性。

这就需要基础性研发和根源性创新结合,并证明自己解决实际问题的能力。

如何完美的解决以上所列的“三合一”难题,百度智能云副总裁李硕,给我们提供了一个很好的案例。

那还是2016年,李彦宏去青岛参加一个会议,和联通董事长王晓初同车,两人聊起了人工智能,李彦宏就做了很认真的解读。当听说AI可以在分析、处理语言方面发挥很大作用时,王晓初就介绍说,联通每年在人工客服领域花费很高,然后他突然问李彦宏,能不能用AI在这个领域帮联通降本增效。李彦宏给了肯定的答复。

李彦宏在百度如流(原百度hi)上和李硕说了这个合作方向,但是两人当时都没有想到,这个项目后来的一波三折。

第一个问题是,百度AI当时还没有处理过如此体量的B端客户的案例,所以对需要多少资源并无概念,李硕的原话是:“本来以为十几位工程师就搞定了,后来发现真不行,还为此投入了一个团队才搞定。要开始知道这么大的投入,还真不一定敢冷启动。”

当时,联通对于如何评估智能客服也没有准确的概念,就提出了一个标准,即智能客服的效益要比承载高于12%左右的人工通话时长。

在项目的推进中,“无人区”的问题不断出现——比如,项目组并不清楚需要多少客服场景的脱敏数据标注才可以达到机器训练的效果,于是,李硕和团队估了一个成本300多万。项目组因为这个启动费用难题还争论了很多次。

但是,如果不尝试就没法做下去,后来,李硕只好用“借预算”的办法,在内部东挪西凑了300万用来支持启动的费用。

“后来更多难题也需要前期投入,我们的选择最后还是都担下来,因为如果项目成了就有很大的示范意义,所以不能失败,现在来看垫这些费用是必要的。”李硕说。

探索无人区的价值B面在于,一旦发现“金矿”,收益也是独享的——这个问题发生在语音合成的环节上,为了最好的、最自然的发声效果,当时提出的是需要用1000小时的录音棚素材来进行训练。

问题是时间只剩下一个月了。

李硕和语音团队的架构师讨论,这位架构师跟李硕说,这个问题如果在这么短时间内解决了,那一定是一个重大成果,因为这本身就是世界性的难题。。

李硕没有办法,出了一个“损招”——把自己和架构师锁在一个会议室里,“逼迫”架构师签字画押,必须“在一个月内搞出来”。他的想法是:“既然说了能够做到,只是时间不足,就说明技术路径是通的。而只要是能通的,我就用倒逼式的高压把时间压到极致,有时候奇迹就是这样产生的。”

架构师果然办到了,这位架构师也是个聪明人,他知道基于1000个小时来训练是绝对没法在1个月内搞定的,于是就在节省时间上下狠功夫,结果最后只用了500个小时就达到了预期效果。

解决世界级难题后“独享”这种成果的快乐,是非个中人无法体验的,至今李硕都会骄傲的说——百度地图上现在只用20句话就能训练出一个个性化的语音包,这种能力至今业界只有百度能够做到。

李硕还记得,南航,太保的一些标志性的项目,也都是李彦宏用这种方式拿下来的,最后实现了技术突破、投入成本有回报、获取示范性效果的三赢。

前面说过,百度在2017年就成为“自动驾驶”方向的国家队。而了解自动驾驶的人都知道,没有智能交通基础设施依托的自动驾驶是空中楼阁,所以这个提案中也不难看出百度的自动驾驶已经从单体模型走向整体规划,从谋一隅走向谋全局。

然而,智能交通是一个特别开放的话题,因为其落地的角度可以说是非常开放,从AI角度,从自动驾驶角度,从造车角度,从车联网角度,可以说有一千个智能交通的参与者,就有一千种解决方案的视角。那么,李彦宏是否带来了一个面向中国特色的智能交通的总体视角呢?

应该说,李彦宏作为一个科学家的技术视角在这份提案里表现的很充分,他认为智能交通的前提是必须打通数据壁垒,“通过平台式运营模式,打通数据壁垒,统筹全域、全量、全时的交通大数据,为城市交通分析研判、组织管理、指挥调度提供支撑”。

李彦宏很清楚的认识到,交通系统的特殊性和专业性。某种意义上说,交通的特点就是“通”,如果缺乏总体的顶层设计,没有数据壁垒的打破,没有从此地到彼地的全局规划,智能交通也就失去了意义。

他还特别强调了“加快交通路网车路协同智能化改造”的重要性。这就必须涉及到,百度在智能交通领域对“聪明的车”与“智能的路”双管齐下的做法。

20年内几乎所有的自动驾驶尝试里,“车优先”和“路优先”是一个长期争议的话题,但现在“车路合一”已经形成共识。

因此,在“聪明的车”方面,Apollo全球合作伙伴已超过210家。在“智能的路”方面,百度将用AI思维、AI技术不断深化车路协同发展,接下来,V2X+高速公路、V2X+停车场、V2X+城市道路将成为三大典型应用场景。所谓的V2X,意为vehicle to everything,即车对外界的信息交换。

厚积薄发,目前百度Apollo已经成为全球最大的自动驾驶开放平台,在车端的能力已经逐渐完善的情况下,百度开始着手解决路端的问题——2020年起,Apollo密集中标“新基建”项目,3月17日在重庆、3月24日在山西、安徽……一大批车路协同示范项目开始落地实施。

此外,协同百度地图生态的长期积累,百度智能城市“ACE王牌计划”将首先从交通出行与城市综合治理两个领域发力。目前,该计划已经与北京、上海、长沙、海南、长春、合肥、宁波、天津等近20个省市地区达成战略合作。

什么叫谋全局,这就叫谋全局;什么叫新基建,这才是新基建。

在新的领域突破,有时候就得李彦宏拍板,这件事,吴甜也记得很清楚。

这件事发生在百度飞桨的战略升级上。

如果你还在为中国IT行业最近频频遭到“缺芯少魂”的打击而困扰,如果你对华为在关键技术上被卡脖子而义愤填膺,那么,你会发现在AI这个无穷大的场景,中国人至少不用担心受到这样的技术挟制,因为我们有了自己的“底层技术”,这就是百度的飞桨。

在AI无人区里,深度学习框架最早仅仅是科研人员因为研发需求而编写的系统。但百度敏锐的发现,深度学习框架是像芯片、操作系统、数据库一样的战略资源。因此,百度从底层开始研发飞桨,让中国科技界,终于摆脱了必须在底层系统受制于人的尴尬,因此它也被称为AI领域的“国货之光”。

为什么美国、中国、欧洲被视为全球前三的可能产生AI根源性创新的原发地?一个很大的标志就是,它们都建构了完全自主的深度学习框架。

而且,飞桨产生于中国,它十分符合中国开发者需求——比如,面对中国还有70%的传统企业没有数字化2.0转型的特点,飞桨在友好性上大幅度提升;又比如,国外主流开发框架普遍都对中文的自然语言处理需求优化得不够,也缺乏中文的应用场景和数据集。而飞桨则继承了“百度更懂中文”的特色,使得基于飞桨开发的中文AI远胜于彼岸的框架。

问题的关键是,飞桨是2016年就已经开源的,但是把它提升到一个战略级的高度,去让全社会来共享,是需要极大的投入的,而这种投入的收益并非直接归于百度。

吴甜清楚的记得,在王海峰的支持下,吴甜和团队进行了充分的研究提出AI时代深度学习平台战略升级,王海峰、吴甜与Robin及其他高管进行了多次研讨论证,在最后的决定会议上,用了两个半小时的深入会议讨论,最后,Robin决定拍板。

“在最后的时候,Robin是当场就定下来的,就在会议要结束的时候,非常明确的就定下来了”,吴甜回忆说:“Robin说我们决定做,这些资源投入都给。这是Robin对AI的坚定信心。”


写教程是为了自己持续学习,分享教程是为了帮助更多人学习。就像作者所说,「Learning by doing/teaching, 写这个教程主要是强迫自己持续学习,另外,也想分享给他人,希望能帮助到更多想学习 Machine Learning 的人,降低大家的学习痛苦。


   简介
免费电子书《Machine Learning Yearning》是吴恩达历时两年总结整理的一本机器学习实践经验宝典,它以较高的层次为我们介绍了许多在机器学习时代AI工程师应该掌握的技术策略。该书并不聚焦于具体的AI算法,而是为我们介绍了许多具有泛化性的如何让AI算法有效工作的技术。



   主要内容
部分内容如下:
  • 机器学习为什么需要策略?

  • 如何使用此书来帮助你的团队

  • 先修知识与符号说明

  • 规模驱动机器学习发展

  • 开发集和测试集的定义

  • 将大型开发集拆分为两个子集,专注其一

  • Eyeball 和 Blackbox 开发集该设置多大?

  • 小结:基础误差分析

  • 偏差和方差:误差的两大来源

  • 偏差和方差举例

  • 与最优错误率比较

  • 处理偏差和方差

  • 偏差和方差间的权衡

  • 减少可避免偏差的技术

  • 训练集误差分析

  • 减少方差的技术

  • 诊断偏差与方差:学习曲线

  • 绘制训练误差曲线

  • 流水线组件的选择:数据可用性

  • 流水线组件的选择:任务简单性

  • 建立超级英雄团队 - 让你的队友阅读这本书吧!

关注下面公众号

回复「MLY」即可获取

这本书的重点并不是教你具体的机器学习算法,而是如何让机器学习算法有效工作。

浏览 27
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报