微软发布Phi-3多模态模型Phi-3-vision:小模型,大钢炮!
共 2267字,需浏览 5分钟
·
2024-05-22 08:28
点蓝色字关注“机器学习算法工程师”
设为星标,干货直达!
微软在开发者大会上发布Phi-3新成员:Phi-3-vision,Phi-3-vision是一个4.2B参数的多模态模型,具有图像理解能力。Phi-3-vision在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V。
加上Phi-3-vision,目前Phi-3家族共有4个模型:Phi-3-mini,Phi-3-small,Phi-3-medium和Phi-3-vision。
目前这个4个模型均已经在HuggingFace上开源:
具体地,Phi-3-mini是一个3.8B参数模型,有128K 和4K两个版本。Phi-3-small是一个7B模型,有128K和8K两个版本,而Phi-3-medium是一个14B模型,有128K和4K两个版本。
Phi-3模型虽小,但是却有很高的性能。其中只有7B参数的Phi-3-small模型,在语言、推理、编码和数学的各种基准测试超过了GPT-3.5。
而14B参数的Phi-3-medium模型性能超过了Gemini 1.0 Pro,Mistral-8x22B等模型。
Phi-3-vision模型,仅有4.2B参数,在一般视觉推理任务、OCR、表格和图表理解任务中,性能超过了像Claude-3 Haiku和Gemini 1.0 Pro V这样的更大模型。
Phi-3-vision模型是基于Phi-3-mini和CLIP ViT-L vision encoder构建而来,它具有很强的视觉理解能力:
目前HuggingFace上已经有一个在线demo(Microsoft Phi-3-Vision-128k):
此外,微软还发布了一个更小的模型Phi-Silica,参数量只有3.3B,它是专为Copilot+ PC NPU所设计,可以直接跑在Windows PC上。
不过这个模型没有开源,只可以通过Windows App SDK来使用。
看来,微软是打算押宝AI PC了!
推荐阅读
使用PyTorch 2.0加速Transformer:训练推理均拿下!
机器学习算法工程师
一个用心的公众号