【面试题】怎么抽样⽐较好?-技术圈

⼀. 单项选择题 1.想要了解上海市⼩学⽣的⾝⾼,需要抽取500个样本,这项调查中的样本是?

A.从中抽取的500名学⽣的⾝⾼

B.上海市全部⼩学⽣的⾝⾼

C.从中抽取的500名⼩学⽣

D.上海市全部⼩学⽣

答案：A

2.以下对k-means聚类算法解释正确的是

A.能⾃动识别类的个数,随即挑选初始点为中⼼点计算;

B.能⾃动识别类的个数,不是随即挑选初始点为中⼼点计算;

C.不能⾃动识别类的个数,随即挑选初始点为中⼼点计算;

D.不能⾃动识别类的个数,不是随即挑选初始点为中⼼点计算;

答案：C

3.以下哪个是常⻅的时间序列算法模型

A.RSI B.MACD C.ARMA D.KDJ

答案：C

4.有个袋⼦装有2个红球,2个蓝球,1个⻩球,取出球以后不再放回,请问取两次出来的球是相同颜⾊的概率是多少

A.0.3333

B.0.25

C.0.2

D.0.1667

答案：C

5. 65,8,50,15,37,24,()。括号中的数字是()

A.25 B.26 C.22 D.27

答案：B

6.⼀组数据,均值>中位数>众数,问这组数据

A.左偏 B.右偏 C.钟型 D.对称答案：B

7.SQL语⾔允许使⽤通配符进⾏字符串匹配的操作,其中‘%’可以表⽰

A.零个字符; B.1个字符; C.多个字符; D.以上都可以;

答案：D

8.关于正态分布,下列说法错误的是:

A.正态分布具有集中性和对称性;

B.正态分布的均值和⽅差能够决定正态分布的位置和形态;

C.正态分布的偏度为0，峰度为1;

D.标准正态分布的均值为0，⽅差为1;

答案：C

9.在以下不同的场景中,使⽤的分析⽅法不正确的有

A.根据商家最近⼀年的经营及服务数据,⽤聚类算法判断出天猫商家在各⾃主营类下所属的商家层级;

B.根据商家近⼏年的成交数据,⽤聚类算法拟合出⽤户未来⼀个⽉可能的消费⾦额公式;

C.⽤关联规则算法分析出购买了汽⻋坐垫的买家,是否适合推荐汽⻋脚垫;

D.根据⽤户最近购买的商品信息,⽤决策树算法识别出淘宝买家可能是男还是⼥;

答案：B

10.下列时间序列模型中,哪⼀个模型可以较好地拟合波动性的分析和预测

A.AR模型 B.MA模型 C.ARMA模型 D.GARCH模型

答案：D

⼆. 多选选择题

11.关于相关系数,下列描述中正确的有:

A.相关系数为0.8时,说明两个变量之间呈正相关关系;

B.相关系数等于1相较于相关系数等于-1,前者的相关性更强;

C.相关性等于1相较于相关系数等于0,前者的相关性更强;

D.Pearson相关系数衡量了两个定序变量之间的相关程度;

E.Spearman相关系数可以衡量两个定序变量之间的相关程度;

F.相关系数为0.2相较于-0.8,前者的相关性更强

正确答案：A,C,E

12.关于线性回归的描述,以下正确的有:

A.基本假设包括随机干扰项是均值为0,⽅差为1的标准正态分布;

B.基本假设包括随机干扰项是均值为0的同⽅差正态分布;

C.在违背基本假设时,普通最⼩⼆乘法估计量不再是最佳线性⽆偏估计量；

D.在违背基本假设时,模型不再可以估计;

E.可以⽤DW检验残差是否存在序列相关性;

F.多重共线性会使得参数估计值⽅差减⼩;

答案：BCE

13.下列哪些⽅法可以⽤来对⾼维数据进⾏降维:

LASSO、主成分分析法、聚类分析、⼩波分析法、线性判别法、拉普拉斯特征映射

答案：LASSO、主成分分析法、⼩波分析法、线性判别法、拉普拉斯特征映射

三. 问答题 16. 查询成交表a中的城市city的成交⾦额⼤于0的购买⼈数(buyer_id)和成交⾦额(amt) city buyer_id order_id amt a 1 1 100 a 1 2 100 b 2 3 100 b 3 4 20 c 4 5 0

select buyer_id,sum(amt) as amt from a where city in
(
select city from (
select city,sum(amt) as amt from a group by city
)t
where t.amt>0
)

14.公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进⾏问卷调研。为不过于打搅商家, 问卷调研采取抽样的⽅式进⾏确定商家名单。怎么抽样⽐较好?

可以考虑采用分层抽样的方式。首先根据销售额或销售量对商家进行分层，这样可能会将商家分为高销售额(量)商户，中销售额(量)商户，低销售额(量)商户等,然后根据这三者的比例确定各个层次应抽取的商户数。对抽取出来的样本,根据相应的指标，如访问量、购买量、买家评级,评论数,发货速度等指标来综合考虑商家的健康指数。