面了几家大厂数据挖掘岗,题是一家比一家难。。。

Python学习与数据挖掘

共 4346字,需浏览 9分钟

 · 2024-04-11

推荐关注↓


今天分享一位星球成员的上岸之旅,最终成功拿下快手数据挖掘岗。喜欢本文记得收藏、点赞、关注。

现在距离秋招结束也好长一段时间了,今天总结一下自己在秋招中的一些经验和教训,希望可以帮助到学弟学妹们。

先介绍一下我自己的情况,我本科211,硕士985。我投的都是数据挖掘岗,最后有幸拿到了快手的Offer。

顺丰

岗位:数据挖掘

  1. 深挖简历

  2. ML主要是比较几个模型,Kmeans & DBSCAN分别应用在哪些场景比较好?LR & SVM的区别?分别应用在那些场景?

  3. DL简单介绍一下RNN,它和 LSTM,ARIMA 的区别?

  4. 是否了解大数据?说说你了解的hadoop和spark。

  5. sql题,涉及窗口函数

  6. 有没有做过参加过比赛?我说美赛,简要说明了一下。

  7. 我反问我应该加强什么?

招联金融

岗位:数据挖掘

一面

  1. 项目介绍

  2. 特征选择方法

  3. 数据挖掘中对于缺失值的处理方案

  4. 说一下 Python(pandas)中常用的数据处理算子。

  5. Spark 的原理,分布式是怎么搭建的。

  6. Sql中 union 和 union all 的区别

  7. 数据行转列怎么操作

  8. xgboost和gbdt的区别

  9. xgboost常调的参数有哪些

  10. svm原理

  11. 说一下你在研会组织了什么活动?

  12. 讲一下你支教的经历。

  13. 反问

二面

  1. 自我介绍

  2. 项目竞赛深挖

  3. 说一下你风控项目中用到的模型?

  4. 数据挖掘中缺失值和异常值是怎么处理的?

  5. 特征降维怎么做?

  6. Sql用过哪些操作,举个例子

  7. Sql如何提高运行效率?

  8. 过拟合的处理方法?

  9. 项目中遇到困难如何解决?

  10. 领导交给你一项不可能完成而且又很重要的问题,怎么办?

  11. 反问

联想

岗位:数据挖掘

时间过去有点久了,纯凭回忆,可能有些遗漏

一面

  1. 机器学习基础知识

  2. Bagging & Boosting

  3. 常用的聚类算法

  4. Kmeans和DBSCAN的原理和区别

  5. 逻辑回归的原理

  6. 怎么处理离散数据

  7. 支持向量机原理

  8. SVM怎么处理非线性

  9. 常用的回归模型

  10. Attention 原理

  11. RNN和LSTM的区别

  12. 什么是梯度爆炸/梯度消失,什么情况下会出现

  13. 梯度渐进的原理

  14. 手撕算法:判断是否是回文、找出最长回文子串

蓝月亮

岗位:数据挖掘

专业面试

  1. 开头问问过往的经历,讲一下过往的一个项目,没有深挖

  2. 线性回归和逻辑回归有什么区别

  3. 逻辑回归的形式是什么,损失函数是什么

  4. 线性回归的损失函数是什么

  5. 逻辑回归的激活函数是什么,除了sigmoid还知道哪些

  6. 为什么有的时候需要将连续变量离散化

  7. 怎么将连续的变量离散化

  8. 决策树的特征选择原理有哪些

  9. 过拟合和欠拟合怎么理解,分别怎么解决

  10. SVM 的原理

  11. SVM如何解决线性不可分的问题

  12. 既然你提到了惩罚系数,那么讲讲SVM使用的核函数有哪些

  13. xgboost和GBDT的区别

  14. 提到了正则项,那么L1和L2有什么区别

  15. xgboost泰勒展开是一阶还是二阶

  16. 多线程和多进程

  17. 用过哪些编程语言

  18. 反问:介绍了团队的主要岗位,一些日常工作,业务范围

主管面试

这一轮不太问专业问题,主要从职业发展,个人成长,个人意向去问

比如:作为技术岗,怎么提高自己的业务能力,你会通过什么方式进行技术的学习

比较感动的是没有考手撕代码,除了SQL以外的手撕代码我都非常头大,感觉他们IT需求蛮多的,算法、NLP、CV都需要,可以试试~

快手

岗位:数据挖掘

一面

  1. 自我介绍

  2. 项目介绍

  3. 项目细节

  4. 随机森林、决策树、XGBoost的区别和联系

  5. 离散特征怎么处理?(没听懂面试官想问啥 )

  6. 针对项目提问,连续特征怎么处理?

  7. 算法:最大子序和 动态规划+贪心算法 做题有点慢

面试官建议:虽然有些东西工作不会用到,但是面试还是会问,题还是应该多刷一刷 不说了,刷题背八股去了。

二面

  1. 自我介绍

  2. 项目介绍(What、Why、How、难点、思考)

  3. 项目怎么分工的

  4. 一两句话简述LR、随机森林、XGBoost优缺点

  5. 精准率、召回率、F1-score、AUC指标的含义和使用场景

  6. 二维矩阵查找【二分法】

不记得还有什么了。。。

三面

  1. 自我介绍

  2. 项目介绍

  3. 线性回归,模型的假设,损失函数,求解

  4. BP神经网络。反向传播传的是什么?

  5. 各种分桶方法的优缺点

  6. 特征组合,归一化

  7. 深度学习与传统机器学习相比最大的不同?

- EOF -

作者简介


城哥,公众号9年博主,一线互联网工作10年、公司校招和社招技术面试官,主导多个公司级实战项目(Python、数据分析挖掘、算法、AI平台、大模型等)


关注我,陪你一起成长,遇见更好的自己。

星球服务


会不定期发放知识星球优惠券,加入星球前可以添加城哥微信:dkl88191,咨询优惠券问题。

加入知识星球,可以享受7大福利与服务:免费获取海量技术资料、向我 1 对 1 技术咨询、求职指导,简历优化、历史文章答疑(源码+数据)、综合&专业技术交流社群、大模型技术分享、定制专属学习路线,帮你快速成长、告别迷茫。



原创不易,技术学习资料如下,星球成员可免费获取,非星球成员,添加城哥微信:dkl88191,请城哥喝杯星巴克。







浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报