【关于 Sentence-BERT】那些你不知道的事-技术圈

作者：杨夕
项目地址：https://github.com/km1994/nlp_paper_study
论文：Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。
论文地址：chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1908.10084.pdf

动机

方法一：BERT使用交叉编码器：将两个句子传递到变压器网络，并预测目标值；

问题：由于太多可能的组合，此设置不适用于各种对回归任务。在n = 10000个句子的集合中找到相似度最高的对需要BERT n·（n-1）/ 2 = 49 995 000推理计算。在现代V100 GPU上，这大约需要65个小时。类似地，对于一个新问题，找到Quora的超过4,000万个现有问题中最相似的一个可以建模为与BERT的成对比较，但是，回答单个查询将需要50多个小时。

方法二：解决聚类和语义搜索的常用方法是将每个句子映射到向量空间，以使语义相似的句子接近。研究人员已开始将单个句子输入BERT，并得出固定大小的句子嵌入。最常用的方法是平均BERT输出层（称为BERT嵌入）或通过使用第一个令牌的输出（[CLS]令牌）；

问题：就像我们将要展示的那样，这种常规做法产生的句子嵌入效果很差，通常比平均GloVe嵌入效果更差。

解决方法

为了缓解此问题，我们开发了SBERT。siamese network 体系结构使得可以导出输入句子的固定大小矢量。使用余弦相似度或Manhatten / Euclidean距离之类的相似度度量，可以找到语义上相似的句子。这些相似性度量可以在现代硬件上非常高效地执行，从而允许SBERT用于语义相似性搜索以及聚类。在10,000个句子的集合中查找最相似的句子对的复杂性从使用BERT的65小时减少到计算10,000个句子嵌入（使用SBERT约为5秒）和计算余弦相似度（〜0.01秒）。通过使用优化的索引结构，可以将找到最相似的Quora问题从50小时减少到几毫秒。