带你读论文第十期:上海人工智能实验室、ICCVW最佳论文奖,钟怡然博士分享

Datawhale

共 1552字,需浏览 4分钟

 ·

2024-04-15 23:43

 Datawhale论文 

来源:WhalePaper,负责人:芙蕖

WhalePaper简介

由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐(Res)等相关方向的论文解读和分享,后续将融入更多的方向。
开源地址:https://datawhalechina.github.io/whale-paper

本期活动

嘉宾简介

钟怡然为上海人工智能实验室青年科学家,新架构探索组PI,负责新一代非Transformer架构的高效大语言模型架构研发和视听语言多模态融合。在此之前,其在上海商汤智能科技有限公司担任高级经理职位,负责大语言模型、多轮对话以及多模态融合相关研究。其博士毕业于澳洲国立大学,师从李宏东教授和Richard Hartley院士。在国际顶级会议和权威期刊发表40余篇论文,包括TPAMI、IJCV、IEEE TIP、CVPR、NeurIPS、ECCV、ICCV、ICLR、EMNLP等,并拥有多项美国专利。成果获得了国际学术界与工业界的广泛关注,引用2200余次。获得了2023 ICCVW最佳论文奖、2014 ICIP的最佳学生论文奖。

分享详情

论文题目:

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

联合分享:OpenNLPLab

论文简介:

近年来,线性注意力作为传统 softmax 注意力的一种高效替代方案,引起了人们的广泛关注。线性注意力能够以线性的计算复杂度处理标记,理论上可以处理长度无限的序列而不损失速度,即在固定内存消耗的情况下,保持各种序列长度的恒定训练速度。然而,由于当前线性注意力算法在因果设置中的累积求和问题,无法展示其理论优势。本文介绍了 Lightning Attention-2,这是第一个实现了线性注意力理论计算优势的线性注意力实现。为了实现这一目标,我们借鉴了平铺的思想,分别处理线性注意力计算中的内部块和外部块组件。具体而言,我们利用传统的注意力计算机制处理内部块,并将线性注意力内核技巧应用于外部块。通过在前向和后向过程中采用平铺技术,充分利用了 GPU 硬件。我们将算法实现在 Triton 中,使其具备 IO 感知能力和硬件友好性。我们在不同的模型大小和序列长度上进行了各种实验。Lightning Attention-2 在输入序列长度不同的情况下保持了一致的训练和推理速度,并且显著快于其他注意力机制。

论文地址:https://arxiv.org/abs/2401.04658

分享时间:2024年4月17日(周三)19点

本场分享会在视频号、b站同步直播

进群参与

群满在公众号后台回复“paper”

一起“三连

浏览 135
10点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
10点赞
评论
收藏
分享

手机扫一扫分享

分享
举报