鱼佬出竞赛书了!

Datawhale

共 3633字,需浏览 8分钟

 ·

2021-10-02 05:43

↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
 Datawhale推荐 
作者:鱼佬,武汉大学,Datawhale成员
组织成员鱼佬出书了。一本《机器学习算法竞赛实战》应运而生,意在帮助机器学习初学者通过实战的方法从虽然优美但是略显枯燥的各种公式和理论当中脱离出来,感受机器学习在实际应用中的奥秘,而竞赛则是一种最特殊的实战。


算法竞赛时代


2010 年,全球著名算法竞赛平台 Kaggle 举办了第一场竞赛 Forecast Eurovision Voting,奖金为 1000 美元。
2015 年,国内第一场算法竞赛在天池举办,比赛题目是阿里移动推荐算法,奖金为 30 万元人民币,吸引了 7000 多人参加。虽然国内的算法竞赛起步时间晚于国外,但从 2015 年开始,在全球举办的一共 1000 多场赛事中,中国就举办了 400 多场,并且场次的年均增长率高达 108.8%,累计有超过 120 万人参加,奖金累计达到 2.8 亿元人民币。在算法竞赛的举办场次拥有如此高增长率的情况下,其技术价值、业务价值和创新价值自然不容小觑。
对于有志于进军机器学习相关领域从事研究或者相关工作的初学者来说,竞赛是性价比极高的一个实战选择,可以说是零门槛,任何人都能参加。


易于学习的竞赛宝典


对于想参加机器学习竞赛的初学者来说,一本内容友好的图书极其重要,可以少走很多弯路。这本《机器学习算法竞赛实战》合理地规划了章节架构,作者们除了仔细的讨论外,还采纳了国内多名顶尖竞赛选手的建议,深入剖析算法的本质内容,还结合多个领域模块进行了实战讲解。全书分为五个部分,作者还给每部分都取了一个名字。

PART.
01


磨刀事半,砍柴功倍
第一部分以算法竞赛的通用化流程为主,介绍竞赛中各个部分的核心内容和具体工作,且每章都配有具体的实战部分,以便加深理解。

PART.
02


物以类聚,人以群分
第二部分主要介绍用户画像相关的问题,构建完善的标签体系是用户画像的核心,也是解决用户画像类赛题的关键,比如个性化推荐和金融风控等问题都需要以用户画像作为支撑。为了帮助读者加快对此类竞赛问题的学习、理解,会讲解具体的竞赛案例,即 Kaggle 平台的 Elo Merchant Category Recommendation。


(题目背景:想象一下,当你在一个不熟悉的地方饿着肚子想要找好吃的东西时,你是不是会得到基于你的个人喜好而被专属推荐的餐馆,且该推荐还附带着你的信用卡提供商为你提供的附近餐馆的折扣信息。
目前,巴西最大的支付品牌之一 Elo 已经与商家建立了合作关系,以便向顾客提供促销或折扣活动。但这些促销活动对顾客和商家都有益吗?顾客喜欢他们的活动体验吗?商家能够看到重复交易吗?要回答这些问题,个性化是关键。
Elo 建立了机器学习模型,以了解顾客生命周期中从食品到购物等最重要方面的偏好。但到目前为止,那些学习模型都不是专门为个人或个人资料量身定做的,这也就是这场竞赛举办的原因。
在这场竞赛中,需要参赛者开发算法,通过发现顾客忠诚度的信号,识别并为个人提供最相关的机会。你的意见将改善顾客的生活,帮助 Elo 减少不必要的活动,为顾客创造精准正确的体验。)


PART.
03


以史为鉴,未来可期
第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析两个具体的实战案例,分别是天池平台的全球城市计算 AI 挑战赛和Kaggle 平台的Corporación Favorita Grocery Sales Forecasting。


(题目背景:在实体杂货店里,销量预测和顾客采购量之间的关系总是很微妙。如果销量预测得多,而顾客采购得少,那么杂货店的商品就会积压过多,尤其对易腐商品的影响较大;如果销量预测较少,而顾客采购量较大,那么商品很快就会卖光,短时间内顾客的体验会变差。 

随着零售商不断增加新地点、新产品,以及季节性口味的变化多样和产品营销的不可预测, 问题变得更加复杂。位于厄瓜多尔的大型杂货零售商 Corporación Favorita 也非常清楚这点,其经营着数百家超市,售卖的商品超过 20 万种。


于是 Corporación Favorita 向 Kaggle 社区提出了挑战,要求其建立一个可以准确预测商品销量的模型。Corporación Favorita 目前依靠主观预测来备份数据,很少通过自动化工具执行计划, 他们非常期待通过机器学习实现在正确的时间提供足够正确的商品,来更好地让顾客满意。)

PART.
04


精准投放,优化体验
计算广告相关的业务大多是很好的竞赛题目,第四部分主要介绍了计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价。实战案例部分则包括两道赛题,分别是 2018 腾讯广告算法大赛——相似人群拓展,以及 Kaggle 平台的 TalkingData AdTracking Fraud Detection Challenge。

PART.
05


听你所说,懂你所写
第五部分基于自然语言处理相关的内容进行讲解,包括常见任务和常见技术,实战案例部分是 Kaggle 平台上的经典竞赛 Quora Question Pairs。
这本书可以说是算法竞赛领域一本系统性介绍竞赛的书,不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。
本书还附赠读书思维导图,轻松定位学习要点。

本书特色


1

腾讯广告算法大赛两届冠军、Kaggle Grandmaster倾力打造

2

赛题案例来自 Kaggle、阿里天池、腾讯广告算法大赛

3

按照问题建模、数据探索、特征工程、模型训练、模型融合的步骤讲解竞赛流程


适合谁读

  • 对算法竞赛感兴趣的人。兴趣是最大的驱动力,为了让算法竞赛变得更加有趣和更加多样性,本书增加了很多扩展与探索性的内容,从多个方向、多个领域进行介绍和实战。

  • 想要研究机器学习或深度学习算法实战的人。实战的最佳方式之一是参加一场算法竞赛,加深对理论知识的理解,这也是本书的核心思想。

  • 计算机相关专业的人。机器学习或深度学习算法作为目前计算机行业一个火热的就业方向,值得去深入研究。本书提供了很好的实战讲解,帮助读者知其然,并知其所以然。


机器学习算法竞赛实战
王贺 刘鹏 钱乾 著
本书是算法竞赛领域一本系统介绍竞赛的图书,书中不仅包含竞赛的基本理论知识,还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。
全书分为五部分:第一部分以算法竞赛的通用流程为主,介绍竞赛中各个部分的核心内容和具体工作;第二部分介绍了用户画像相关的问题;第三部分以时间序列预测问题为主,先讲述这类问题的常见解题思路和技巧,然后分析天池平台的全球城市计算 AI 挑战赛和 Kaggle 平台的Corporación Favorita Grocery Sales Forecasting;第四部分主要介绍计算广告的核心技术和业务,包括广告召回、广告排序和广告竞价,其中两个实战案例是 2018 腾讯广告算法大赛——相似人群拓展和Kaggle 平台的TalkingData AdTracking Fraud Detection Challenge;第五部分基于自然语言处理相关的内容进行讲解,其中实战案例是 Kaggle 平台上的经典竞赛 Quora Question Pairs。


作者简介


王贺(鱼遇雨欲语与余),现任职于小米商业算法部,从事应用商店广告推荐的研究和开发。从 2018 年至 2020 年多次参加国内外算法竞赛,共获得 5 次冠军和 5 次亚军,是 2019 年和 2020 年腾讯广告算法大赛的冠军。毕业于武汉大学计算机学院,硕士学位,研究方向为图数据挖掘。
刘鹏,华为技术有限公司算法工程师,从事电信运营商和智能运维领域的算法研究和开发工作。2016 年本科毕业于武汉大学数学基地班,保研至中国科学技术大学自动化系,硕士期间研究方向为复杂网络与机器学习,2018 年起多次获得机器学习相关竞赛奖项。


钱乾,数程科技大数据技术负责人,工作方向为物流领域的智能算法应用。本科就读于美国佐治亚理工大学,研究方向包括机器学习、深度学习、自然语言处理等。


目录抢先看


(向右划动查看)


文末福利

小伙伴们本期一起来聊聊算法竞赛吧!参加过算法竞赛的伙伴们来分享一下自己参赛的收获。也可以分享Datawhale在你参赛路上的帮助。我们会在精选留言中选出 5 位送出纪念版书籍。留言截至:2021.10.7

☟☟ 京东购买

浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报