2021年我的互联网秋招算法岗总结!
共 4999字,需浏览 10分钟
·
2020-11-21 03:14
Datawhale干货
作者:李金泽,清华大学,Datawhale作者
前言
一晃接近三个月过去了,秋招也到了尾声,之前一直忙于写毕业论文,现在在这里想总结一些自己求职互联网大厂算法岗的面经和心得,希望帮助后来的学弟学妹们收获自己心仪的offer。
今年的算法岗求职较往年竞争也更加激烈,可以预见以后进大厂的算法岗会变得越来越难,比如美团北斗去年的准入门槛是一篇CCF A,而今年直接提升到了两篇CCF A,难度提高了一倍,加之疫情的影响,我认识的很多手握顶会的本科学弟们以及海外的同学们也加入到了找工作的大军中,因此今年算法岗的竞争堪称史上巅峰,真的是八仙过海,各显神通。不过,找工作不仅需要实力,运气和方法也缺一不可,下面我就谈谈我自己的心路历程。
背景
本人Top2硕士在读,非计算机科班,两篇论文在投,投递岗位的方向主要为推荐/广告/机器学习,在整个秋招的过程中,共参加了8场面试,阿里、百度、京东、美团、拼多多、快手、小红书、平安。
最后侥幸获得了7家公司的offer,其中6家ssp,1家sp,薪资待遇40+W-70+W不等。
可能很多人会觉得我应该有多家大厂的实习,但其实我并没有,由于父母的工作受到了疫情的影响,导致我今年从疫情开始到7月初一直都在家里帮父母的忙,从而错过了暑期实习,看到周围的同学都拿到了大厂实习的offer,当时的我只感觉自己的秋招应该和互联网无缘了。
每个人的秋招只有一次,如果不奋力一搏,又怎会知道最终的结果。抱着这个念头,我在7月初就赶紧放下了父母的工作,全身心的备战秋招。在这里,我就要讲一讲我的方法了,大部分互联网公司算法岗基本是三轮技术面+一轮HR面,技术面每轮的面试时间大致是一个小时,主要考察coding能力、基础知识和项目/竞赛。由于时间的不足,在这三个方向上我做了时间的分配,我的复习顺序是基础知识->项目/竞赛->coding能力。
1.基础知识
除了极少数公司会在一上来就要求你做一道编程题以外,大部分互联网公司都会在你的自我介绍和论文之后开始进行基础知识的考察,因此它的重要性不言而喻。基础知识的复习有两种途径,一是看书,二是看视频,这取决于你对哪一种途径接受知识的速度更快。我选择的是看书,一是因为视频不一定讲得面面俱到,二是视频质量如果不过关,很有可能某些细节的讲述是错误的。以推荐/广告岗位为例,我主要看如下书籍。
周志华的西瓜书《机器学习》 李航老师的《统计机器学习》第二版 DL圣经《深度学习》,又名花书。 《百面机器学习》 《概率论与数理统计》、《线性代数》、《凸优化》 推荐/广告:《深度学习推荐系统》、《计算广告》等
如果时间有限,可以直接去看第二本蓝皮书和第三本花书,这两本书一定要从头到尾仔仔细细的过一遍,因为基础知识的考察无外乎就是机器学习或深度学习里的知识。当这两本书过完一遍之后,再看西瓜书的效率就会快很多了。
除此之外,第四本书可以留在你将要面试的那几天着重去学习,因为你有了前几本书的知识做铺垫,第四本书就可以当成八股文去背了。前提是一定要在你理解这些知识之后,因为单纯的死记硬背面试官其实很容易就会发现破绽,毕竟现在每个人都会背。
对于本科学习过的线代和概率论,建议大家也复习一遍,因为在我的面试过程中就有面试官”残忍“的提问了,虽然概率不高。对于学有余力的同学,可以去看一些推荐/广告方向的工业界人士出版的书籍,这一块的知识考察往往会穿插在整个面试中,有的面试官会在最后当成开放题进行考察。
其次,基础知识的复习也很容易会遗忘,面对这个问题,我一般会将高频考点的知识写在ipad中,然后每晚会去复习一遍,这样一个月下来,基础知识应该就可以烂熟于心了,这一段的复习就可以告一段落了。
2.项目/竞赛
项目/竞赛一般会在基础知识之后进行考察,这些一定要提前准备好,写在简历里的项目一定是要自己亲自做过的,因为一旦面试官问到了项目中某一个部分的代码是如何实现而你又回答不上来的话,在他心里对你的印象就会非常减分,并且会怀疑候选人的诚信问题。所以,我的方法是将之前做过的项目重新再做一遍,包括代码部分。
这一块看似会花费大量时间,实则并没有那么长。具体来说,我会先将做过的项目重新梳理一遍,画出整个项目的流程图,然后再逐行复习自己的代码。等代码复习完之后,再删掉重新写一遍,这一步骤因人而异,取决于你的记忆能力。
竞赛方面,常用的竞赛模型如GBDT、XGBoost、LightGBM、FFM、DeepFFM等一定要了解。最后,如果你的论文或项目与面试官所做的方向非常的match,你通过这一面的概率也将会大很多。
3.coding能力
代码能力是计算机专业学生的基础能力,求职技术方向的同学,无论是测试、开发或算法,互联网公司在这一块的考察都是重中之重。
一般而言,大厂在每一轮的技术面中,至少会出一道编程题,多的会直接上三道编程题让你做(我就遇到了...),难度主要集中在easy和medium,少数丧心病狂(褒义词)的面试官会出hard题。而考察范围已是圈内公开的秘密,就在《剑指offer》和Leetcode上,因此刷题成为了大家求职路上必须要迈过的一道坎,这个坎没有人可以帮到你,只有靠你自己。我在硕士阶段也没有刻意的去刷过题,只有本科时刷过洛谷,下面是我Leetcode账号上提交次数的统计:
我是从8月初开始集中在Leetcode上刷题,一直刷到了10月份,《剑指offer》也是在Leetcode上刷的,平均每个月刷题数是300。可能很多人都觉得300道根本不可能完成,确实,如果你按照Leecode官方的题号顺序去刷根本不可能,但如果是按照题目类型(标签)去刷,每天刷10道,一个月也就完成了300道。
一开始可能会很慢,但基本上每个类型的题目当你刷够20道以后,都可以总结出该类题目的代码模板,所以前期会慢一点,越往后则会发现刷题速度越来越快,可以理解为先苦后甜。而对于刷题的方法,可以分为三轮进行:
a.第一轮:优先效率。当一道题花了十五分钟去思考也没有思路时,则果断选择直接看答案。
b.第二轮:培养思路。你需要对以前做过的每一道题都要有一个大致的映像,并且知道解题的方法是什么。这一轮其实最难度过,因为人对事物的遗忘是有规律的,而我们需要想办法客服这个规律。在这里推荐一下我的方法。我在刷完每一道题之后,会在ipad上注明题号以及题目名称,然后将该题的解题思路写下来,最后还会重写一遍代码。这样,以天和周为单位不断地复习之前的题目,就可以做到以后遇见它们时可以迅速反映出是用什么方法解决这道题的。
c.第三轮:完善思路。当我们顺利度过了第二轮之后,第三轮则需要学习每道题目的多种解法,比如TopK问题可以用快排变形/堆/二叉查找树/计数排序四种方法解决。在我的面试过程中,有些面试官会在你AC一道题后还会要求写出最优解,这往往决定你的面评是否能达到较高级别,也就是能否拿到sp以上级别的offer,并且一道题如果学会了多种解法,也会让你加深对这道题的理解。因此,我建议大家要学会用多种解法解决一道题,并且要培养出能快速AC的能力。
PS:在这里,我要推荐一下自己免费加入的Leetcode每日打卡和竞赛群,圈内俗称残酷群。国服前一百位的选手在该群都有好几十人。规则很简单,每日完成题主发布的Leetcode题号以及每周在美服上打Leetcode周赛,但周赛排名靠后的小伙伴会要求发红包,这个机制也是为了督促大家快速成长。所以秋招不是刷题之路的终点,而仅仅只是开始。
面试投递
在完成了基础知识->项目/竞赛->coding能力的复习后,时间节点也移动到了八月中下旬,这时很多公司的秋招正式批即将开始。由于我错过了提前批的投递,而提前批往往都没有笔试,所以正式批只能先参加笔试再进行面试。经过血与泪的磨练后,在这里给大家的建议是,有提前批投提前批,无提前批投特殊计划,重要的事情说三百遍。
原因有两点:
提前批的竞争压力小,投的人少,先拿到offer的概率很大; 正式批的笔试题一般有一定难度,且刷人主要看AC题目的数量,比较残酷。而且据我身边同学的例子,有很多人笔试完之后公司就杳无音信了,要问就是在筛选,实际上你已经妥妥变成了备胎(有恋爱经验的人都懂),然后在公司的池子里欢快的游动。除此之外,若感觉自己还没有准备好,则可以等待几天再投递,但千万不要错过提前批的截止时间。
所以提前批的面试能把握的还是尽量要把握,哪怕你觉得自己只准备了60%,但万一成功了呢?
因为面试通过这个事情,实力与运气都需要, 在你的实力和别人差距不大的情况下,实力不够,也可以运气来凑不是吗。
部分面经
以下面经均为各个公司的正式批,由于时间有点久远,有些考点已经不记得了。
京东
一面:
介绍论文、项目,很详细。包括每一个环节是怎么实现的,损失函数是如何设计的,模型是如何训练的等等。 代码题:Leetcode 713:乘积小于k的子数组;Leetcode 297:二叉树的序列化和反序列化。 GBDT、XGBoost、LigthGBM的区别与联系。 送入LR前,如何处理数据(特征工程)。
二面:
介绍论文、项目,很详细。 Transformer中的Scaled Dot-Product Attention为什么要缩放(两点)。 Transformer中的Position Embedding是怎么实现的?为什么? bagging和boosting与偏差和方差的关系以及原因。 如何解决数据不平衡的问题。 假设检验的两类错误。 MSE、MAE与贝叶斯估计的区别。 为什么快排比堆排快? 口述算法题:对一个商品的价格、数量、购买人数进行分次排序,不改变之前的排序结果。
三面:
由于一、二面表现好,三面直接过了。
美团
一面:
介绍论文和项目,很详细。 代码题:面试题17.24:最大子矩阵;Leetcode 695:岛屿的最大面积。 介绍一下DSSM。 开放题:关于双塔模型的应用。
二面:
介绍论文和项目,以及论文中的涉及到的baseline模型。 代码题:面试题01.08:零矩阵,写出两种解法。 XGBoost 如果损失函数没有二阶导,该怎么办。 聊天+反问。
三面:
介绍论文和项目,非常详细。 介绍实习,说说实习印象中最深的点。 开放题:部门中的某个应用场景你会怎么解决。 职业规划,个人希望做的方向。
拼多多
一面:
介绍论文和项目。 AUC是如何实现的,它对均匀正负样本采样是否敏感,并用代码实现。 BERT与ALBERT的区别。 介绍一下DKN模型。
二面:
介绍论文和项目。 过拟合如何解决+具体方法追问。 代码题:Leetcode 42:接雨水。 知识图谱表示学习有哪些模型。 聊天+反问。
阿里
一面:
介绍论文和项目。 代码题:Leetcode 382:链表随机节点,并口述蓄水池采样算法的推导。 概率题:将一根木棍分成三段,求这三段构成三角形的概率。 开放题:一个超级大文件,每一行有一个 ip 地址,内存有限,如何找出其中重复次数最多的 ip 地址。
二面:
介绍论文和项目。 论文后续可能提升的点以及想法探讨。 说一说Graph Embedding和GNN的区别。 代码题:Leetcode 23:合并K个升序链表。 聊天+反问。
三面:
介绍论文和项目。 介绍一下最能体现自己工程能力的项目。 如何提高推荐线上的性能。 强化学习在推荐中的应用及探讨。
总结
最后,我想谈一谈自己对于面试的看法。无论是竞赛、论文还是大厂实习,这些都是为了方便你拿到面试的资格,哪怕你三者都没有,但只要公司愿意向你发起面试,你都应该好好努力。
而最终是否能顺利拿到offer以及offer的等级,主要还是取决于你的面评,一个非常好的面评是帮助你拿下大厂sp以上offer至关重要的因素,因此切忌面试紧张,如果你紧张,可以心中默念欧米豆腐。
祝愿大家都能拿到自己心仪的offer!