让AI学会“哦买尬，买它！”，清北中科院CMU争相角逐顶会Workshop竞赛，淘系技术&浙大联手举办-技术圈

点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

看场直播或视频，结果却看中了主播的衣服、裤子甚至裙子？

现在，你不再需要手动截图识别了——

已经有人将AI用在直播商品识别技术中，帮你自动“挑出”其中的商品。

为了提升AI识别直播商品的准确率，阿里淘系技术联手浙江大学，在全球顶会ACM MM 2021的Workshop上搞了个AI识别大赛，甚至拿出1万美金（6.3万人民币）奖励TOP 3。

来自清华、北大、中科院、CMU、浙大、哈工大、华科等高校的587支队伍纷纷参赛，力图研究出更好的算法。

最终，来自中科院计算所的「mcg」夺得冠军，来自北大、南京大学、湖南大学的「写的代码都队」夺得亚军，来自中南大学、DGUT和华南理工大学的「百亿补贴matchmatchmatch」获得第三名。

这场比赛究竟比了些什么，背后的Workshop又有些什么内容？

我们一起来看看。

多模态技术识别主播带货

相比于用一张截图进行商品识别，直播的商品识别还需要考虑更多因素。

从难度来看，直播时主播并非完全不动，而是会走动、转动来展示商品的形态，衣服非常容易发生形变、模糊；

同时，画面背景中还存在其它衣服的干扰、同时还可能面临直播遮挡、服装相似等问题。

从优势来看，直播时呈现给AI的信息量也会更多，包括主播的语音、带货商品标题等，都会在画面直播的同时呈现出来。

如果能结合语音识别，通过多模态技术增加模型输入信息量，就能有效提升商品检索的准确率。

具体来说，直播商品识别的过程是这样的：

首先，对输入的视频解析成视频帧，再利用AI目标检测进行商品识别；

然后，再从视频中提取出语音进行AI语音识别，利用AI模型提取出有用的商品描述信息。

最后，利用多模态获取的信息，在商品数据集中进行检索，预测出最合适的商品，并给出对应的标签。

为了让选手们更好地识别商品，淘系技术还通过这个Workshop，开源了业界首个大规模的多模态视频商品检索数据集，包括50000对匹配的视频片段。

其中，这些视频片段都是从淘宝直播和产品商店的直播中提取的。

标注也非常详细，包括产品类别、边界框、视点类型、展示类型、实例ID、标题描述和语音识别文本都有所涉及。

事实上，这已经不是淘系技术第一次举办这项比赛了。

中科院再次夺冠

这场今年4月27日发起的比赛，是第二届淘宝直播商品大赛。

这是一个多模态领域的国际挑战赛，由阿里巴巴淘系技术联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起。

相比于第一届大赛，第二届大赛在赛题设计上，主要做了两点改进：

注重全类别的识别效果，尤其是长尾的商品类别、视觉纹理简单商品的识别等
强调多模态等信息(主播讲解语音、商品标题)，对精确识别视觉相似讲解商品的重要性

也就是说，这届AI模型考验的不止是某几种商品的识别准确率，而是AI对直播中商品的“整体理解能力”。

除了看清楚商品以外，AI还需要知道这是哪种类别的商品，并尽可能收集视频中的各种信息，包括语音信息等，来确认自己看到的是哪一种商品。

同时，由于这次更注重长尾商品类别的识别，因为各类别数据集的大小不一样，评估方式自然也要有所变化。

这里采用了Macro F1的评估标准，计算方法如下：

比赛也需要通过预赛、半决赛和决赛三场比赛，从最初的提交结果中依次筛选出20支和10支队伍，进行最终的测试集测试，并进行复现。

最终，来自中科院计算所的「mcg」从587支队伍中脱颖而出，取得了0.69的高分，超过baseline 0.22，排名TOP 3的三支队伍评估分数也均超过0.6。

而在第一届淘宝直播商品识别大赛中，同样也是来自中科院和吉林大学的队伍夺得冠军。

这场比赛的目的，是希望能推动电商直播场景中多模态商品检索识别的研究、以及AI技术在实际应用场景中的落地。

当然，除了这一场比赛之外，在ACM MM 2021的Workshop中，还有不少收获。

共收录5篇论文

一方面，在论文征集部分，这次Workshop一共接收了5篇论文，包括两篇long paper，三篇short paper：

此外，还有不少AI领域的教授也在这次Workshop上做了演讲，其中就包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua、北京航空航天大学的刘偲副教授、悉尼科技大学青年研究员朱霖潮、淘系技术高级算法专家陈志文。

除此之外，来自中科院、北大、中南大学、清华、华中科技大学的五位同学也在这场Workshop上进行了口头报告，分享了他们的参赛方案和成果。

对于这次Workshop的目的，阿里巴巴淘系技术资深算法专家李晓波表示：

这次Workshop通过提供真实的多模态商品识别的应用场景、数据，希望能够促进更多学术和工业的结合，激发更多创新研究和技术落地。

对这个场景感兴趣的小伙伴，可以在下方地址中获取开源数据集~

淘宝直播多媒体商品识别数据集：
https://tianchi.aliyun.com/competition/entrance/531893/information

参考链接：
https://tianchi.aliyun.com/competition/entrance/531893/introduction

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

点个在看 paper不断！

让AI学会“哦买尬，买它！”，清北中科院CMU争相角逐顶会Workshop竞赛，淘系技术&浙大联手举办

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

多模态技术识别主播带货

中科院再次夺冠

共收录5篇论文

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI