简介
LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。Demo早期实验表明,LLaVA 展示了优秀的多模型聊天能力,有时在看不见的图像/指令上表现出多模型 GPT-4 的行为,与GPT-4... 更多
其它信息
地区
不详
开发语言
Python
JavaScript
开源组织
无
所属分类
神经网络/人工智能、 LLM(大语言模型)
授权协议
Apache-2.0
操作系统
跨平台
收录时间
2023-09-25
软件类型
开源软件
适用人群
未知
时光轴
里程碑1
LOG0
2023
2023-09
轻识收录
评价
0.0(满分 10 分)0 个评分
什么是点评分
全部评价(
0)
推荐率
100%
推荐
DeepPavlov端到端对话系统和聊天机器人训练库
DeepPavlov 是一个开源的对话 AI 库,基于 TensorFlow 和 Keras 构建,
DeepPavlov端到端对话系统和聊天机器人训练库
0
SurrealDB端到端的云原生数据库
SurrealDB是一个端到端的云原生数据库,适用于Web、移动、无服务器、jamstack、后端和传统应用程序。SurrealDB通过简化数据库和API堆栈来减少现代应用程序的开发时间,消除对大多数
SurrealDB端到端的云原生数据库
0
DeepPavlov端到端对话系统和聊天机器人训练库
DeepPavlov是一个开源的对话AI库,基于TensorFlow和Keras构建,其作用是:NLP和对话系统研究;实现和评估复杂对话系统。目标是为研究人员提供:一个框架,用于实现和测试他们自己的对
DeepPavlov端到端对话系统和聊天机器人训练库
0
VLE视觉-语言多模态预训练模型
VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力
VLE视觉-语言多模态预训练模型
0
DeepSpeech端到端自动语音识别
DeepSpeech是一个采用 PaddlePaddle 平台的端到端自动语音识别(ASR)引擎的开源项目,具体原理参考这篇论文 Baidu'sDeepSpeech2paper。我们的愿景是为语音识别
DeepSpeech端到端自动语音识别
0