通义千问-VL大规模视觉语言模型

联合创作 · 2023-09-26 00:04

通义千问-VL (Qwen-VL)是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM）。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。

Qwen-VL 系列模型的特点包括：

强大的性能：在四大类多模态任务的标准英文测评中（Zero-shot Captioning/VQA/DocVQA/Grounding）上，均取得同等通用模型大小下最好效果；

多语言对话模型：天然支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；

多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；

首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注；

细粒度识别和理解：相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

目前提供了 Qwen-VL 系列的两个模型：

Qwen-VL: Qwen-VL 以 Qwen-7B 的预训练模型作为语言模型的初始化，并以Openclip ViT-bigG作为视觉编码器的初始化，中间加入单层随机初始化的 cross-attention，经过约1.5B的图文数据训练得到。最终图像输入分辨率为448。

Qwen-VL-Chat: 在 Qwen-VL 的基础上，我们使用对齐机制打造了基于大语言模型的视觉AI助手Qwen-VL-Chat，它支持更灵活的交互方式，包括多图、多轮问答、创作等能力。

相较于此前的 VL 模型，Qwen-VL 除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

Qwen-VL 以通义千问 70 亿参数模型 Qwen-7B 为基座语言模型研发，支持图文输入，具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL 取得了远超同等规模通用模型的表现。

浏览 55

点赞

收藏

分享

举报

评论

图片

表情

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型，在超大规模的预训练数据上进行训练得到。预训练数据类型多样

通义千问-7B基于 Transformer 的大语言模型

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-

Baichuan-13B大规模语言模型

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开

Baichuan-13B大规模语言模型

Baichuan-13B是由百川智能继 Baichuan-7B 之后开发的包含130亿参数的开源可商用的大规模语言模型，在权威的中文和英文benchmark上均取得同尺寸最好的效果。本次发布包含有预训

Linly大规模中文语言模型

本项目向社区提供中文对话模型Linly-ChatFlow、中文基础模型Linly-Chinese-LLaMA及其训练数据。模型基于 TencentPretrain 预训练框架实现，在32*A100GP

Linly大规模中文语言模型

本项目向社区提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chines

视觉-语言（VL）智能：任务、表征学习和大型模型

新机器视觉

全面赶超GPT-4？阿里云发布通义千问2.5，一文带你读懂通义千问

Qwen-VL：最新国产多模态大模型，基于通义千问-7B

机器学习与生成对抗网络

多模态视觉语言模型 Mini-Gemini

大家好，又见面了，我是 GitHub 精选君！背景介绍随着大数据和人工智能技术的快速发展，多模态视觉语言模型（Multi-modality Vision Language Models）已成为近年来研究的热点。这类模型通过融合图像和文本信息，能够更好地理解和生成复杂的视觉语言内容，广泛应用于图像标注

点赞

收藏

分享

举报