LLaVA端到端训练的大型多模态模型认领

0粉丝

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。Demo早期实验表明，LLaVA 展示了优秀的多模型聊天能力，有时在看不见的图像/指令上表现出多模型 GPT-4 的行为，与GPT-4

简介

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。Demo早期实验表明，LLaVA 展示了优秀的多模型聊天能力，有时在看不见的图像/指令上表现出多模型 GPT-4 的行为，与GPT-4... 更多

技术信息

开源协议

Apache-2.0

开发语言

Python JavaScript

操作系统

跨平台

软件类型

开源软件

所属分类

神经网络/人工智能、 LLM（大语言模型）

开源组织

无

地区

不详

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-25

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

SurrealDB端到端的云原生数据库

SurrealDB 是一个端到端的云原生数据库，适用于 Web、移动、无服务器、jamstack、后

DeepPavlov端到端对话系统和聊天机器人训练库

DeepPavlov 是一个开源的对话 AI 库，基于 TensorFlow 和 Keras 构建，

SurrealDB端到端的云原生数据库

SurrealDB是一个端到端的云原生数据库，适用于Web、移动、无服务器、jamstack、后端和传统应用程序。SurrealDB通过简化数据库和API堆栈来减少现代应用程序的开发时间，消除对大多数

DeepPavlov端到端对话系统和聊天机器人训练库

DeepPavlov是一个开源的对话AI库，基于TensorFlow和Keras构建，其作用是：NLP和对话系统研究；实现和评估复杂对话系统。目标是为研究人员提供：一个框架，用于实现和测试他们自己的对

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-

DeepSpeech端到端自动语音识别

DeepSpeech是一个采用 PaddlePaddle 平台的端到端自动语音识别（ASR）引擎的开源项目，具体原理参考这篇论文 Baidu'sDeepSpeech2paper。我们的愿景是为语音识别

DEEP数字企业端到端平台

DEEP（DigitalEnterpriseEnd-to-endPlatform）是由AWS支持的成本低，维护成本低的数字化平台。帮助企业开发人员提高工作效率。使用DEEPFramework，开发人员

DEEP数字企业端到端平台

DEEP（Digital Enterprise End-to-end Platform）是由 AWS

DeepSpeech端到端自动语音识别

DeepSpeech 是一个采用 PaddlePaddle 平台的端到端自动语音识别（ASR）引擎的