好未来NLP算法工程师面试题9道|含解析

共 1711字,需浏览 4分钟

 ·

2024-01-05 09:34

12本七月在线内部电子书在文末,自取~

公众号福利

👉回复【100题】领取《名企AI面试100题》PDF

👉回复【干货资料】领取NLP、CV、ML等AI方向干货资料

45282c970d59cb98f7e46304fa279856.webp f4ba26c63d1ec026f03e20071563d71d.webp 45282c970d59cb98f7e46304fa279856.webp 问题1:lora的矩阵怎么初始化?为什么要初始化为全0?

矩阵B被初始化为0,而矩阵A正常高斯初始化

如果B,A全都初始化为0,那么缺点与深度网络全0初始化一样,很容易导致梯度消失(因为此时初始所有神经元的功能都是等价的)。

如果B,A全部高斯初始化,那么在网络训练刚开始就会有概率为得到一个过大的偏移值Δ W 从而引入太多噪声,导致难以收敛。

因此,一部分初始为0,一部分正常初始化是为了在训练开始时维持网络的原有输出(初始偏移为0),但同时也保证在真正开始学习后能够更好的收敛。

问题2:gpt源码past_key_value是干啥的?

在GPT(Generative Pre-trained Transformer)中,past_key_value是用于存储先前层的注意力权重的结构。在进行推理时,过去的注意力权重可以被重复使用,避免重复计算,提高效率。

问题3:gpt onebyone 每一层怎么输入输出

在GPT One-by-One中,每一层的输入是上一层的输出。具体而言,输入是一个序列的嵌入表示(通常是词嵌入),并通过自注意力机制和前馈神经网络进行处理,得到输出序列的表示。

问题4:模型输出的分布比较稀疏,怎么处理?

可以采用一些方法来处理模型输出的分布稀疏,例如使用softmax函数的温度参数调节来平滑输出分布,或者引入正则化技术,如Dropout,以减少模型对特定类别的过度依赖。

问题5:决策树是如何做回归的

决策树回归通过在数据空间中递归划分,每个叶子节点都对应一个具体的回归值。在训练过程中,决策树根据输入特征的不同划分数据,使每个叶子节点尽可能纯净(样本值相似)。叶子节点的回归值可以是该节点内所有训练样本的平均值。

问题6:kl散度的公式和kl散度与交叉熵的区别

KL(Kullback-Leibler)散度衡量了两个概率分布之间的差异。其公式为:

KL散度指的是相对熵,KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度越小表示两个分布越接近。也就是说KL散度是不对称的,且KL散度的值是非负数。(也就是熵和交叉熵的差)

问题7:tfidf公式

015c4adb3860778c580efa0b76eb820b.webp

8b1c6a67bc45aac46737459ce9ae07f6.webp

, 分母之所以要加 1, 是为了避免分母为 0 d6b6e468b149e263f80ffc475fb58542.webp

问题8:除了cosin还有哪些算相似度的方法

除了余弦相似度(cosine similarity)之外,常见的相似度计算方法还包括欧氏距离、曼哈顿距离、Jaccard相似度、皮尔逊相关系数等。

 问题9:cart树的分裂准则是啥

CART(Classification and Regression Trees)树的分裂准则通常采用基尼不纯度(Gini impurity)或均方误差(Mean Squared Error,MSE)。在分类问题中,CART树寻找能最小化基尼不纯度的特征和阈值进行分裂;在回归问题中,它寻找能最小化均方误差的分裂方式。分裂过程持续递归,直到满足停止条件。

免费送


↓以下12本书电子版免费领,直接送↓ 96faca93543077ec0fbbf1057074a295.webp

bb5a9d576b0fd3bdc7de97f448c2dabc.webp

以上8本+2022年Q4面试题-69道》、2022年Q3面试题-83道》、2023年Q1面试题-65道》、2023年Q2面试题-103道共12本, 免费送


扫码回复【999】免费领12本电子书

      

(或 找七月在线其他老师领取

643b104bfeedbdb9e5227519f8aabec7.webp点击 阅读原文 ”抢宠粉 福利 ~

浏览 26
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报