极市平台

1获赞0关注1粉丝

喜欢

英伟达也对 Mamba下手了，视觉 Transformer 与 Mamba 的完美融合！

↑ 点击蓝字关注极市平台作者丨AI视界引擎来源丨AI视界引擎编辑丨极市平台极市导读在ImageNet-1K数据集上的图像分类中，MambaVision模型变体在Top-1准确率和图像吞吐量方面达到了新的最先进（SOTA）性能。在MS COCO和ADE20K数据集上的下游任务，

实践教程 | 轻松入门模型转换和可视化

↑ 点击蓝字关注极市平台作者 | 爱做菜的炼丹师来源 | CV研习社编辑 | 极市平台极市导读本文给大家介绍一个模型转换格式ONNX和可视化工具Netron。ONNX是微软设计的一种多平台的通用文件格式，帮助算法人员进行模型部署和框架之间相互转换。而Netron是一款老牌的轻

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

↑ 点击蓝字关注极市平台来源丨新智元极市导读 MoE已然成为AI界的主流架构，不论是开源Grok，还是闭源GPT-4，皆是其拥趸。然而，这些模型的专家，最大数量仅有32个。最近，谷歌DeepMind提出了全新的策略PEER，可将MoE扩展到百万个专家，还不会增加计算成本。>

近一年，多模态视觉&语言大模型架构演进汇总梳理

↑ 点击蓝字关注极市平台作者丨Dreamweaver来源丨吃果冻不吐果冻皮编辑丨极市平台极市导读本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结，截止2024.06。 >>加入极市CV技术交流群，走在

CV什么时候能迎来ChatGPT时刻？

↑ 点击蓝字关注极市平台作者丨rumor来源丨李rumor编辑丨极市平台极市导读一统CV的想法什么时候回成真？一起来看看三篇在统一模型上的尝试。 >>加入极市CV技术交流群，走在计算机视觉的最前沿卷友们好，我是rumor。最近看了几篇CV的工作，肉眼就感

真实雨景/图像去雨相关开源数据集资源汇总

↑ 点击蓝字关注极市平台编辑丨极市平台真实雨景数据集下载链接：https://www.cvmart.net/dataSets/detail/1123一个由~29.5K的雨/无雨影像对组成的大型数据集，涵盖了广泛的自然雨景。合成降雨数据集下载链接：https://www.cvmart.ne

ECCV 2024｜腾讯优图实验室14篇论文入选，含工业缺陷异常检测、图文引导图像编辑、多模态标签等研究方向

↑ 点击蓝字关注极市平台来源丨腾讯优图实验室编辑丨极市平台极市导读今年，腾讯优图实验室共有14篇论文被录用，内容涵盖工业缺陷异常检测、图文引导图像编辑、多模态标签等研究方向，展示了腾讯优图实验室在人工智能领域的技术能力和研究成果。 >>加入极市CV技术交

6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

↑ 点击蓝字关注极市平台来源丨新智元极市导读来自微软、MIT等机构的学者提出了一种创新的训练范式，攻破了大模型的推理缺陷。他们通过因果模型构建数据集，直接教模型学习公理，结果只有67M参数的微型Transformer竟能媲美GPT-4的推理能力。>>加入极市CV技

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

↑ 点击蓝字关注极市平台作者丨新智元来源丨新智元编辑丨极市平台极市导读 Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研

实践教程｜无需nms，onnxruntime20行代码玩转RT-DETR

↑ 点击蓝字关注极市平台作者丨陈er来源丨GiantPandaCV编辑丨极市平台极市导读本文采用RT-DETR两种不同风格的onnx格式，使用onnxruntime20行代码，无需nms操作即可实现简易部署推理。>>加入极市CV技术交流群，走在计算机视觉的最前沿【

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

↑ 点击蓝字关注极市平台来源丨机器之心极市导读 Lilian Weng 出品，必是精品。 >>加入极市CV技术交流群，走在计算机视觉的最前沿人会有幻觉，大型语言模型也会有幻觉。近日，OpenAI 安全系统团队负责人 Lilian Weng 更新了博客，介绍

用ViT取代Encoder！VIM：使用 ViT 改进的 VQGAN 进行矢量量化图像生成（ICLR 2022）

↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读本文探索了在 VQGAN 里面，把图像的 Encoder 换成 ViT。本文改进之后的 ViT-VQGAN 进一步改进了矢量量化图像建模的任务，包括无条件图像生成、class-conditioned 图像生成和无监督

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

↑ 点击蓝字关注极市平台作者丨新智元来源丨新智元编辑丨极市平台极市导读时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。>>加入极市CV技术交流群，走在计算机视觉的最前

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

↑ 点击蓝字关注极市平台来源丨机器之心极市导读论老黄卖铲子的技术含量。 >>加入极市CV技术交流群，走在计算机视觉的最前沿2019 年 2 月，OpenAI 发布了 GPT-2，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充

ICLR 2024｜微软提出视觉新主干EfficientMod：融合卷积和注意力机制

↑ 点击蓝字关注极市平台作者丨VincentLee来源丨晓飞的算法工程笔记编辑丨极市平台极市导读 Efficient Modulation (EfficientMod) 融合了卷积和注意力机制的有利特性，同时提取空间上下文并对输入特征进行投影，然后使用简单的逐元素乘法

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

↑ 点击蓝字关注极市平台作者丨机器之心来源丨机器之心编辑丨极市平台极市导读本文提出了一种融合场景和语义信息的动作生成框架，由自回归的扩散模型作为驱动，能够在给定动作类别和路径点的条件下，生成符合场景约束的人物动作。 >>加入极市CV技术交流群，走在计算机

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

↑ 点击蓝字关注极市平台作者丨新智元来源丨新智元编辑丨极市平台极市导读超越Transformer和Mamba的新架构诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。>>加入极市CV技术交流群，走在计算机视觉的

ECCV 2024｜无视遮挡，跟踪一切目标！DINO-Tracker成就单目物体追踪里程碑

↑ 点击蓝字关注极市平台作者丨阿豹来源丨深蓝AI编辑丨极市平台极市导读本文的DINO-tracker框架能够无视遮挡，实现对物体的长距离跟踪，突破了之前技术的局限，入选了ECCV24。 >>加入极市CV技术交流群，走在计算机视觉的最前沿论文地址：http

CVPR世界第二仅次Nature！谷歌2024学术指标出炉，NeurIPS、ICLR跻身前十

↑ 点击蓝字关注极市平台来源丨新智元极市导读一年一度谷歌学术指标公布了！Nature年年霸榜，而今年与以往不同的是，国际学术顶会的排名大幅提升，CVPR位居第二，超越Science仅次于Nature。另外，TOP 20中，共有五大顶会入选，被引最高论文与大模型时代下前沿技术，

月之暗面kimi底层推理系统方案揭秘（二）

↑ 点击蓝字关注极市平台作者丨ZHANG Mingxing来源丨包包算法笔记编辑丨极市平台极市导读深入探讨了月之暗面的底层推理平台—Mooncake。文章基于作者在知乎上的讨论和分享，特别是清华大学助理教授zhangmingxing的观点，详细介绍了Mooncake的分离式架

CNN一定比Transformer差吗？LeCun新作：神经网络在实践中的灵活性到底有多大？

↑ 点击蓝字关注极市平台作者丨新智元来源丨新智元编辑丨极市平台极市导读神经网络拟合数据的能力受哪些因素影响？CNN一定比Transformer差吗？ReLU和SGD还有哪些神奇的作用？近日，LeCun参与的一项工作向我们展示了神经网络在实践中的灵活性。>>加入极市

李彦宏：开源模型是智商税！傅盛：付费的闭源大模型才是！

↑ 点击蓝字关注极市平台作者丨付奶茶来源丨夕小瑶科技说编辑丨极市平台极市导读开源大模型和闭源大模型究竟谁才是“智商税？ >>加入极市CV技术交流群，走在计算机视觉的最前沿最近几天，圈里讨论最热闹的、打开手机社媒平台给我推荐最凶的，就是WAIC 2024了

参数少60%还不掉点！浙大EfficientFuser：端到端如何高效融合？

↑ 点击蓝字关注极市平台作者丨Yipin Guo等来源丨自动驾驶之心编辑丨极市平台极市导读浙江大学最新的工作EfficientFuser，与SOTA的轻量级方法相比，EfficientFuser仅使用了37.6%的参数和8.7%的计算量，就能取得相同性能！ >

多模态模型(VLM)部署方法抛砖引玉

↑ 点击蓝字关注极市平台作者丨oldpan来源丨oldpan博客编辑丨极市平台极市导读文章详细讨论了几种多模态模型，如LLaVA、InternLM-XComposer2、QWen-VL等，并解释了它们的架构和训练流程。以及介绍了几种多模态模型的部署框架，包括TensorRT-

阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题

↑ 点击蓝字关注极市平台作者丨王谢睿、付思铭、黄启涵、何旺贵、姜浩编辑丨极市平台极市导读用户通过少量主题参考图，无需微调即可一键生成与多种文本概念结合的新图片。该项目已开源。 >>加入极市CV技术交流群，走在计算机视觉的最前沿图像个性化是当今的热门研

局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

↑ 点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读原始 Transformer 中可以直接将每个单独的像素 (pixel) 视为 token。 >>加入极市CV技术交流群，走在计算机视觉的最前沿本文目录1 一个像素就是一个 token！探索 T

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅了

↑ 点击蓝字关注极市平台作者丨机器之心来源丨机器之心极市导读方向完全搞错了？ >>加入极市CV技术交流群，走在计算机视觉的最前沿大语言模型（LLM）为什么空间智能不足，GPT-4 为什么用语言以外的数据训练，就能变得更聪明？现在这些问题有「标准答案」了

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

↑ 点击蓝字关注极市平台作者丨机器之心来源丨机器之心编辑丨极市平台极市导读导读 >>加入极市CV技术交流群，走在计算机视觉的最前沿正文该文章的第一作者安照崇，目前在哥本哈根大学攻读博士学位，导师为Serge Belongie。他硕士毕业于苏黎世联邦理工学

SD和Sora们背后的关键技术！一文搞懂所有 VAE 模型（4个AE+12个VAE原理汇总）

↑ 点击蓝字关注极市平台作者丨APlayBoy来源丨AI生成未来编辑丨极市平台极市导读在这篇博客中，我们将深入探讨自编码器的世界，介绍其基本原理、不同类型及其在实际问题中的应用。 >>加入极市CV技术交流群，走在计算机视觉的最前沿随着Stable Dif

为什么都放弃了LangChain？

↑ 点击蓝字关注极市平台来源丨机器之心极市导读或许从诞生那天起，LangChain 就注定是一个口碑两极分化的产品。 >>加入极市CV技术交流群，走在计算机视觉的最前沿看好 LangChain 的人欣赏它丰富的工具和组建和易于集成等特点，不看好 Lang