GPT-4V危？又一个SOTA多模态大模型Reka Core来了！

机器学习算法工程师

共 2589字，需浏览 6分钟

·

2024-04-16 08:29

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

RekaAILabs最新发布了他们目前SOTA的多模态模型Reka Core。Reka Core在权威的评估指标上与OpenAI、Anthropic和Google的SOTA模型不相上下。

添加图片注释，不超过 140 字（可选）

Reka Core在多模态模型评估集MMMU上与GPT-4V相当，在由独立第三方机构进行的多模态人类评估中，其性能超过了Claude-3 Opus，并且在视频任务上超越了Gemini Ultra。在语言任务方面，Core在广为接受的基准测试中与其他前沿模型具有竞争力。

A comparison of Core with leading models in the market

Rankings on Human Evaluation for Multimodal.

Reka Core具有以下能力：

多模态（图像和视频）理解：Core不仅仅是一个前沿的大型语言模型。它对图像、视频和音频有着强大的情境理解能力，并且是市场上仅有的两个商用全面的多模态解决方案之一。

128K上下文窗口：Core能够摄取并准确地召回更多的信息。

推理能力：Core具有出色的推理能力（包括语言和数学），使其适合需要复杂分析的复杂任务。

编程和代理性工作流程：Core是顶尖的代码生成器。它的编码能力与其他能力结合，可以赋能代理性工作流程。

多语言：Core在32种语言的文本数据上进行了预训练。它不仅精通英语，还流利掌握几种亚洲和欧洲语言。

部署灵活性：Core可以通过API、本地部署或设备上部署，以满足客户和合作伙伴的部署限制。

Reka Core在架构上采用Encoder-Decoder结构，如下所示，它可以支持图像，文本，视频和音频作为输入，但只支持文本输出。更多信息见Reka Core的技术报告。

添加图片注释，不超过 140 字（可选）

Reka官方也展示了Reka Core和其它模型的具体例子对比，见https://showcase.reka.ai/。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

推荐阅读

使用PyTorch 2.0加速Transformer：训练推理均拿下！

硬核解读Stable Diffusion（系列三）

硬核解读Stable Diffusion（系列二）

硬核解读Stable Diffusion（系列一）

带你入门扩散模型：DDPM

机器学习算法工程师

一个用心的公众号

浏览 168

10点赞

收藏

分享

举报

评论

图片

表情

CogVLM2：最新开源多模态SOTA！19B模型比肩GPT-4v，16G显存就能跑

机器学习与生成对抗网络

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：https://

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到1.75万亿参数。项目现有7个开源模型成果，模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿，模型可实现文本生成图像，经过

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数

CogVLM：类 GPT-4V 的开源多模态大模型 | 清华唐杰&智谱

机器学习与生成对抗网络

ImageBind多模态 AI 模型

ImageBind是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和IMU数据）的信息的AI模型，它将这些信息统一到单一的嵌入式表示空间中，使得机器能够更全面、直接地从多种信息中学习，而无需明

ImageBind多模态 AI 模型

ImageBind 是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和 IMU 数据）的信息

综述 | 多模态 LLM,大模型的未来

机器学习与生成对抗网络

VisualGLM-6B多模态对话语言模型

VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥

10点赞

收藏

分享

举报