面经 | 阿里淘系数据分析1+5面 offer报批中

数据管道

共 4448字,需浏览 9分钟

 ·

2020-11-28 00:51

篇分成三part:
  1. 超重要的简历面

  2. 面经

  3. 面试 over


part1 超重要的简历面


阿里今年多是业务线各自组织招聘,二月底我就在淘系技术部的内推群里投了简历。这次简历面也算是我人生中第一次正式的工作面试吧(我yy的mentor看到可能会气死hhh)。可以说,从0基础的萌新小白,到后来get TAT三家大厂offer的初级小白,都得感谢这次面试。

当时简历一塌糊涂,方向不清晰,目标不明确。

简历面 2020.02.24    30min

1. 实习经历
2. 一个指标在30天内有波动,怎么判断属于正常波动还是数据异常?
3. 实习具体做了什么工作
开发ltv报表如何选取指标?有讨论吗?报表的维度有哪些?怎么分析?你做的报表能发现什么?可以提供给产品什么建议?
4. 如果让你来选指标,除了ltv(属于中后期指标),还可以选什么?如何用图表呈现?

5. sql问题
  • row_number()实际用法介绍

  • 如何优化连接

6. 统计
  • 贝叶斯公式一般解决什么问题

  • 现在新型冠状病毒,有一个病人发烧咳嗽,让你用试剂盒检测,拿到阳性或阴性的结果,怎么判断他到底有没有患病?

  • 假设检验和置信区间的区别

  • 中心极限定理

7. 机器学习
  • 比较熟悉的机器学习算法有哪些?

  • 支持向量机的原理是什么?和感知机的区别?那线性可分和不可分有什么区别呢?

8. 建议:
  • 系统地梳理一遍业务知识

    • AARRR

    • 广告的投放、变现过程...

小哥说了很多,但我的字迹太潦草,后来我只认出了这几个字...
  • 熟悉两三个算法,可以从这几个角度:

 解决什么问题、算法原理、推导过程、缺点、怎么优化。

整理面经时看见之前的答案真的好辣鸡,所以就没有贴我的回答啦

e.g:
被问到svm怎么用于线性不可分数据集,我:怎么会线性不可分哇,从数学上来讲,只要不是无限维的,映射到高维空间,都能给他分得开 

当时属于完全get不到面试官想考我什么的菜?水平

不过这次面试让我知道应该从这几个方向去准备
  • 算法:小哥说,一般面试也没两个人能把svm的来龙去脉讲清楚,所以重点弄明白两三个经典算法就好了(可能需要svm的smo这种深度吧

  • 业务:系统学习和整理相关知识,思路才会更有框架性

  • 自己简历的case得从多方面深挖


好像讲的都是大家知道的,但我最初是很抵触去看算法的,觉得内容多且杂,没有办法面面俱到。但是掌握两三个就很容易了,再从算法的异同点逐渐拓展开来,每次面试前复习一遍,读书百遍,其义自就是这个道理吧


紧接着就是前面两篇写过的腾讯&字节的面试,直到3月18阿里开正式系统,才有之后的故事:part2:3+1交叉面+1hr面 其中第3面简单粗暴 & 惨不忍睹


part2 面经


淘系技术部 数据分析


一面 2020.03.26 30min
1. 自我介绍
2. 为什么转到数学?遇到的最大困难和解决办法
3. 数据分析分很多种,阿里实习和转正要求是同一岗位,你为什么想做偏业务的呢?

4. 你在yy具体什么部门负责什么业务?组织架构是怎样的?

5. 统计

  • 用小白鼠做实验,如何验证新药剂是否有作用?

  • 如果p值比a大,就断定新药剂有作用吗?

    统计显著性和检验显著性


6. 业务题

  • 淘宝活动,怎么设计优惠券的满、减金额,使gmv最大?怎么设计?怎么对比?最后看什么数据?

    对比:不能只考虑gmv值的绝对差异,还要考虑退货订单率

  • 对于设计出来的两三种优惠券,基于过去的数据,怎么给商家配比?通过什么维度?如何衡量好坏?

7. 提问:
  • 具体部门:淘系技术部 - 商业机器智能部门

  • 不足:互联网相关实践较少,多看一些行业报告是如何分析问题的


面试官说他之前面的都是社招,也不太了解我这种没啥实践的校招生应该是什么水平(害 maybe他以为校招生都跟我一样菜了 ?

二面 2020.04.01 35min+11min(面试官介绍工作内容)

1. 实习的汇报线和分工,围绕具体负责的产品功能介绍工作内容
2. 实习case
  • 你觉得最难的点?

    分业务和技术展开讲

  • 技术层面遇到的问题 & 怎么解决的?技术层面的提升有哪些?

3. sql
  • sql的优化有哪些

  • 小表在前,大表在后的优化原理

  • tb有一列数,保证不重复,打印出相加等于100的数,2&98 与98&2只打印出一行即可


4. 业务题

  • 道路交通事故,男司机出现事故占90%,女司机出现事故占10%,是否说明男司机比女司机更容易出现交通事故?

    不对,基数不一样

  • 除了人数,还需要考虑什么因素?(这才意识到是想考我控制变量法)

    除了性别,其他因素都一样:统计的时间区间、驾驶车的类型(几座、牌子)、车龄、司机驾龄...


5. 概率题54张牌分成三份,4个A一起的概率
    高中数学的古典概型问题

6. 代码能力,python什么程度?具体使用情况?spark的使用?数据清洗的时间格式转换?

7. 提问:

  • 数据分析具体工作做什么?

        数据赋能,大团队包括算法、数据

        对外发挥价值的方式:以分析为主导,为运营、产品迭代提供帮助;算法赋能,抽象建模

  • 如何提升?

        业务上的理解可以在实习中逐渐积累、继续沉淀;技术层面:python等是一方面,还要学习机器学习、数据挖掘相关算法


三面 2020.04.03 15+3min

面试官前一天打电话约时间和面试时都十分高冷,看牛客上的面经说第三面很有可能是压力面,不出所料,果然面到心态爆炸?

1. spark是用java还是scala?
    emmm 主要是在云计算平台上写spark sql,没有涉及到更底层的

2. spark sql和普通sql有什么区别?运行的时候遇到过哪些错误?具体报错的信息是什么?

    再次...  这两个spark相关的问题答得是相当辣鸡,这一刻感觉自己呼吸都是尴尬的


3. 灵魂拷问系列

    Q:对一列数据进行二值化,使得二值化后的数据均方误差最小

    A:聚类算法的思想:k-means

    Q:你确定你的答案吗?还有什么快速方法?

    A:确定。从小到大排列,取1/4和3/4分位数

    Q:如果不排序,还有什么方法

    A:是否需要精确找到这两个数?数据量很大吗?可以当成正态分布来做吗

    Q:精确找到,没有分布信息

    ...

    A:是要精确找到这个数吗?

    Q:是,你刚才已经问过了

    ...

    A:用二分法,对于排在中间位置的数,比它小就往前排,比它大就往后排...


4. 30个人去旅游,有A、B、C、D、E 5个地方供选择,每人投一票,两种投票方式:

:选出票数最多的地点(如果票数相同,对于相同地点继续投票)

二:每一轮淘汰一个票数最少的地点,直到只剩一个地点

这两种投票方式有区别吗?为什么?讲出这两种投票方式的优缺点2-3个

一:尽可能满足更多人的第一志愿,二:尽可能提升所有人的平均满意度

5. 提问:

  • 和前面的面试官是一个部门吗?

        面试官:你还没有到交叉面试环节

  • spark sql那一块是不是答得很不好?

        面试官:你觉得这是什么原因?


灵魂拷问系列中的两个...,是我面试中度过最漫长的两分钟。最后这两个死亡提问,现在回忆起来仍令我倒吸一口凉气,maybe真是压力面?!但我还是硬着头皮认真解释了刚开始为什么答得不好以及之后的改进方向,可能有扳回0.1成?



因为三面回答得太辣鸡,一直以为自己被挂掉了,但是官网流程没更新。14号接到阿里面试官电话,开口第一句:我是蚂蚁金服的算法工程师...

学姐说阿里的交叉面一般是阿里内部or蚂蚁内部的交叉,我可能是被转岗了,想到自己又要从头开始,仿佛看到腾讯0-7的悲惨战绩,差点没缓过来?

四面 2020.04.14 30min (蚂蚁金服交叉面)

1. ccf项目   13min

  • 方案赛和算法赛的区别、复赛思路展开

  • 你们都不是网络安全相关专业的,怎么想到这么去做的呢?

  • 如果不知道业务知识,怎么去分析?

    数据如果脱离业务背景,分析就没有意义

  • 企业里复用,对于噪声影响怎么优化分析思路?

  • 具体分工 & 最终得到的结果


2. 简历里提到的用户行为分析    7min

  • 具体:

    从用户打开app开始,分析付费用户的前续行为

  • 报表的作用:

    为选取搭建基础数据报表体系的指标提供支持,为产品迭代提供方向

  • 除了数据结果,还可以从哪些方向优化app?


3. 迁移到蚂蚁金服的业务(数字金融线),怎么界定行为的转化,比如用户从最初使用余额宝➡️稳健型理财产品➡️风险型基金这样一个进阶过程

  • 定义优质客户:在蚂蚁上花费较多的用户,时间序列观察行为转变过程

  • 定义转化的关键步骤:从数据上发现哪两步之间存在比较大的gap,结合业务定位问题

4. 提问:

  • 面试流程:面试官表示是他老板让他面的,他不清楚我前面的流程,以为是一面

  • 具体工作:用数据指导业务同学推荐适合的理财产品;描绘用户的进阶路线(用户行为模式的探索)


算是最顺利的一次面试了,面试官表示我的分析思路和他们的实际工作基本一致,询问到的工作内容也是我比较感兴趣的,好像互相都还觉得比较match。当时我俩都以为是一面,问题也都是围绕简历展开的。

第二天问了内推的大哥(第一次简历面的面试官)才知道,交叉面通过了,可以安心等待hr面

如果四面面试官知道这是交叉面,想必不会这么容易了吧

hr面 2020.04.16 30min 视频面

1. 疫情期间在家的安排
2. 阿里业务介绍
    部门200人,90%以上是算法工程师
3. 交叉面的问题
hr姐姐表示他们是淘系面试最严格的部门,交叉面必须要跨大的bu
4. 实习时间:
  • 之前没有疫情影响,阿里是要求5月-10月底,具体看同学的时间

  • 10月底会有转正面试,11/12月三方签署


5. 你是一个什么样的人 & 兴趣爱好
6. 你想和什么样的人一起工作
老板:逻辑清晰,一针见血,有整体的框架性考虑,工作时认真,私下略活泼。拎得清、分得开
同事:工作能力强,善于沟通,好相处
7. 你遇到的比较难的事?
8. 你想在哪个城市工作?
淘系大部分base杭州,少量北京

03 面试 over


阿里面试风格还是比较鲜明

1. 很可能没有自我介绍,直接看简历问问题,我hr面都没有让自我介绍?

2. 之前实习工作的部门组织架构及汇报线
被问到三四次,考察你是否了解公司和业务的整体运作情况

3. 更注重发现问题 & 怎么想到解决方法的思路
腾讯更多会问怎么解决,阿里更多会问怎么想到这么去解决

4. 如果面试发挥得不好,最后提问环节也是一个重要机会噢


·················END·················

推荐阅读

  1. 说说心里话

  2. 写给所有数据人。

  3. 从留存率业务案例谈0-1的数据指标体系

  4. NB,真PDF神处理工具!

  5. 超级菜鸟如何入门数据分析?


欢迎长按扫码关注「数据管道」

浏览 88
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报