最新开源:智源BGE登顶Hugging Face月度榜!北大&快手开源Pyramid Flow!Rhymes AI开源Aria!

共 3938字,需浏览 8分钟

 ·

2024-10-16 07:00

NO.1

国产AI模型登顶全球TOP 1!智源BGE下载破亿成Hugging Face月榜冠军

近日,Hugging Face更新了月度榜单,智源研究院的 BGE 模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE 在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。

BGE,全称BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。

自2023年8月发布首款模型 BGE v1,历经数次迭代,BGE 已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。

BGE 不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据” 向社区完全公开。BGE 在开源社区广受欢迎,许多 RAG 开发者将其比作信息检索的“瑞士军刀”。

NO.2

北大&快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频

10月11日,北京大学、北京邮电大学和快手科技联合开源了一款名为Pyramid Flow的高清视频生成模型。用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频

  • 项目地址:https://pyramid-flow.github.io

  • 论文地址:https://arxiv.org/pdf/2410.05954

  • Demo地址:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Pyramid Flow核心特点如下:

  1. 高效生成Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一

图:金字塔流匹配算法:视频的生成是在不同的分辨率层次上逐步进行的

  1. 快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。
图:Pyramid Flow生成的视频展示
  1. 开源和商业使用Pyramid Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。
NO.3

Rhymes AI发布首款开源多模态AI模型Aria,性能超越GPT-4o mini

近日,日本初创公司 Rhymes AI 发布首款开源多模态AI模型 Aria

Aria 是一个多模态本地混合专家模型,能够在多种多模态、语言和编码任务中表现出色,尤其在视频和文档理解方面具有优势。它支持长达 64K 个 token 的多模态输入,并能在 10 秒内为 256 帧视频生成字幕。

Aria 的设计轻量且快速,能够高效编码不同大小和纵横比的视觉输入。

  • 论文地址: https://arxiv.org/abs/2410.05993

  • Code地址: https://github.com/rhymes-ai/Aria

  • 官网地址: https://rhymes.ai/

Aria 的设计理念是希望能够在文本、代码、图像和视频等多种输入形式上,提供卓越的理解和处理能力。

与传统的 Transformer 模型不同,MoE 模型通过多个专业的专家来替代其前馈层。当处理每个输入令牌时,一个路由模块会选择一部分专家进行激活,从而提高计算效率,减少每个令牌的激活参数数量。

在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。

根据相关基准测试,Aria 在多个多模态、语言和编程任务中表现优于 Pixtral-12B 和 Llama-3.2-11B 等模型,并且因激活参数较少,推理成本也较低。

此外,Aria 在处理带有字幕的视频或多页文档时表现良好,其理解长视频和文档的能力超过了 GPT-4o mini 和 Gemini1.5Flash 等其他开源模型

NO.4

Mistral AI发布 Pixtral-12B 技术报告

9 月 12 日,法国 AI 初创公司 Mistral 发布 Pixtral-12B,是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。

近日,Mistral AI 发布 Pixtral-12B 技术报告。

Pixtral-12B 是一个 120 亿参数的多模态语言模型。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。

  • 论文地址:https://arxiv.org/pdf/2410.07073

  • 官网地址: https://mistral.ai/news/pixtral-12b/

  • Inference code: https://github.com/mistralai/mistral-inference/

  • Evaluation code: https://github.com/mistralai/mistral-evals/

与许多开源模型不同的是,Pixtral 也是同类产品中的先进文本模型,并且不会因为在多模态任务中表现出色而降低自然语言性能。

Pixtral 使用从零开始训练的全新视觉编码器,可按自然分辨率和长宽比摄取图像。这样,用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。

Pixtral 12B 的性能大大优于其他类似大小的开源模型(Llama-3.2 11B 和 Qwen-2-VL 7B)。它还优于 Llama-3.2 90B 等更大的开源模型,但体积却小了 7 倍

Mistral 还贡献了一个开源基准 —— MM-MT-Bench,用于评估实际场景中的视觉语言模型,并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。


参考:
https://huggingface.co/BAAI
https://pyramid-flow.github.io/

浏览 183
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报