【NLP】Sentence-T5|谷歌提出文本表示新SOTA
机器学习初学者
共 1283字,需浏览 3分钟
· 2021-08-29
卷友们好,我是rumor。
又出新SOTA了。
每个新SOTA,都意味着下一位要卷得更辛苦、调得更猛烈一些。
而这个SOTA还出在我一直关注的文本表示赛道。
这次谷歌用了T5,把STS的平均分从82.52提到了83.34。
题目:Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models
地址:https://arxiv.org/abs/2108.08877
模型结构
乍一看题目还是蛮期待的,用T5做文本表示,会不会玩出什么花来?不过读了之后有些略微调低期望,这篇文章提出了三种从T5拿文本表示的方法:
直接拿encoder输出的第一个token表示,类似CLS,但由于T5在训练时就没有CLS,实验下来效果不好就去掉了 直接拿encoder输出的mean pooling,实验下来发现这个最好,不精调的时候也比BERT的好很多,作者分析是T5更多的训练数据+预训练时加了下游任务 拿decoder的第一个输出,直接用不太好,但精调后还可以,作者分析是这个相当于加了attention pooling
有监督Loss
精调时采用了双塔结构,比以往不同的是多加了一层投影和L2-Norm。
在精调时参考了对比学习的NT-Xent loss,但输入的都是有监督数据(不用对比学习的数据增强了,直接输入有标注的正负样本)。
同时提出了tow-stage的精调:先用网上挖掘的20亿弱监督QA对精调,再用NLI精调(entailment=1,contradict=0)。
实验结果
除了在STS上对比之外,还在SentEval上进行了实验(给表示加一个分类器,测试embedding迁移到下游任务的效果):
最终加了其他数据的Sentence-T5以不到1个点的微弱优势登上SOTA。
同时作者验证了尺寸越大效果越好:
总结
看得出来我这篇文章写得不是很快乐,主要是感觉新意比较有限,懒穷的我可能也不会去挖20亿的数据,也没有卡去跑更大的模型。
不过!还是有几点启发可以分享一下:
作者加了Proj&Norm层但是没有做消融实验,这个对效果究竟有多少影响呢? 作者在对比loss上的temperature=100,之前无监督对比学习的T都很小,这是为什么呢? 最近一直在想prompt learning怎么用来做文本表示,而T5天生就契合prompt,既然作者证实了decoder精调后是可以用的,那是不是。。。
往期精彩回顾 本站qq群851320808,加入微信群请扫码:
评论
JS的这些新特性,你都用过么?
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号回复1,加入高级Node交流群作为一门不断演进的语言,JavaScript每年都会引入新特性。这些特性的加入,能够帮助我们编写更加简洁、高效、易于维护的代码。然而,并非所有新特性
程序员成长指北
1
谷歌员工爆料 Python 基础团队原地解散
转自 | 机器之心编辑 | 蛋酱什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Tho
机器学习算法与Python实战
0
推荐 | 文本分析库cntext2.x使用手册
Tips: 公众号推送后内容只能更改一次,且只能改20字符。 如果内容出问题,或者想更新内容, 只能重复推送。 为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2024-04-27-cntext2x-usage-tutorial/cntext是大邓
大邓和他的Python
1
文本嵌入、文本分类和语义搜索
在实践中使用大型语言模型(LLM)中,RAG 的一个关键部分是使用文本嵌入从知识库中自动检索相关信息。在这里,我将更深入地讨论文本嵌入,并分享两个简单(但功能强大)的应用:文本分类和语义搜索。ChatGPT 吸引了全世界对人工智能及其潜力的想象。ChatGPT 的聊天界面是这一影响的关键因素,它使人
大邓和他的Python
0
LangChain又上新了!LangChain项目贡献者@莫尔索新书重磅上市
在 AI 领域,每天都有新技术和框架出现,作为一个开源框架,LangChain 提供了构建基于大模型的 AI 应用所需的模块和工具,大大降低了 AI 应用开发的门槛,使得任何人都可以基于 GPT-4 等大模型构建自己的创意应用。LangChain 框架的爆火LangChain 作为开源项目首次进入公
机器学习实验室
0
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
Tips: 为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2024-04-25-firm-economic-policy-uncertainty/本文使用的缩写EPU 经济政策不确定性(Economic Policy Uncerta
大邓和他的Python
0
奇域AI,最懂新中式美学的AI绘画神器
「奇域AI」是一款非常适合驾驭新中式审美的AI绘画工具。作为国内首个主打新中式插画的AI绘画产品,它提供了上百种新中式美学风格模型,包括新中式插画、笔墨水彩、新铅油画等,为用户提供了丰富的选择。这款工具在「网页版」和「小程序」上都可以使用,只需输入你想要的画面,就能生成出符合新中式审美的作品。奇域A
IQ前端
0
Pura品牌焕新,华为高端市场“失去的都要拿回来”
Pura 70系列,注定会成为华为手机的另一个“转折点”。作 者 丨 宿艺编 辑 丨 子淇手机新旗舰,果然还是看华为。从4月15日到18日的三天时间中,华为Pura 70系列不断刷爆各大社交平台和媒体报道,并一举推动了中国手机市场的三个改变
壹观察
23