图像描述（ImageCaption）任务简析-技术圈

本文小媛仅仅介绍了该任务的背景与相关研究

希望通过以下的简单介绍

引起大家对“多模态/imagecaption”的学习兴趣

图像描述（ImageCaption）任务是多模态领域的一个经典任务。

多模态

多模态机器学习，英文全称 MultiModal Machine Learning (MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习从1970年代起步，经历了几个发展阶段，在2010后全面步入Deep Learning阶段。

人其实是一个多模态学习的总和，所以也有”砖家“说了，多模态学习才是真正的人工智能发展方向。

Image Caption

Image Caption，就是从图片中自动生成一段描述性文字，有点类似于我们小时候做过的“看图说话”，十分有趣。

对于人来说，Image Caption是简单而自然的一件事，但对于机器来说，这项任务却充满了挑战性。

原因在于机器不仅要能检测出图像中的物体，而且要理解物体之间的相互关系，最后还要用合理的语言表达出来。

从上面一段文字中，相信大家已经了解该任务的输入（文本）和输出（文字）。为了更好的理解，我们先来看几个例子。

例子

这是小媛翻出的本科毕设的陈年旧图

经过大批量数据（如MSCOCO数据集）的训练，一个训练良好的模型可以做到如上图一般准确的图片描述。

如，可以准确描述出长颈鹿不仅在森林里，也在一棵树的旁边，即使那棵树在图片中仅仅漏出了一半。

背景

近年来，随着机器学习和深度学习研究的不断深入，图像处理、图片识别、自然语言处理、文本生成等技术发展迅猛，已然成为近些年的研究热点。

在自然语言处理（Natural Language Processing，NLP）领域内，文本生成可谓是最困难的学习任务，而在图像领域，图片分类和图片定位也早早的被人们所熟知，进入广大机器学习研究者的视野。

图片分类是常见的CV领域的任务，其给定一张图片，让计算机将此图片分类到已经划定好的正确的类别中，例如猫或狗；而图片定位除了告诉人们一张图片可划分的所属类别，还会用一个矩形框把相关的位置标识出来，例如哪个位置是猫，而哪个位置是桌子；当然还有要求更高的图像分割（Image Segmentation），告诉人们哪些像素属于实体（例如人、猫狗等），而另外哪些像素则属于背景，使用像素代替了简单的使用矩形框。

但人们认为电脑可以从图像中得到的信息远不止于此，人们希望电脑可以学到类似于人类的描述图像的语言，于是图像描述任务应运而生^[2]。

图片识别与文本生成正是立足于机器学习的两个不同领域，而将两者结合起来，便是当今的图片描述任务。

现在许多image caption 的研究内容也在如火如荼的进行。在中高考语文卷英语卷中，也都或多或少存在着看图写作等相关题目。同时，图片认知与描述是人类的创作性活动，如果机器能完成这一任务，能够理解图片含义并尽量准确的生成图片中心句，那将是人工智能的一次很大进步。

与图片分类任务相比，图片描述任务最主要的特点是直接为用户返回其所需的人类语言所描述的图片信息，而不是简单的图片内容分类，而且其可以用当下流行的机器学习与深度学习技术深层次的理解图片主体之间的关系。

显然，相比图片分类而言，图片描述任务可以更好的满足用户对图片完整内容的获取需求^[3]。

相关技术

图片描述任务的技术核心是计算机视觉（Computer Vision，CV）技术与自然语言处理技术。

自然语言处理（Natural Language Processing，NLP）是一门研究如何让计算机理解并运用自然语言的技术。近年来，自然语言处理技术成为计算机科学与信息技术研究的热点之一，其主要应用在人工智能领域。

图片描述任务是深度学习中领域间融合发展的重要表现形式。Image Caption任务可以准确理解图片信息，提取图片特征（包括全局特征以及局部区域特征），并做到向用户返回准确、简洁的自然语言答案，从而满足用户对快速准确获取信息的需求，是理解图片的一种高级形式。

图片描述任务是深度学习中图像识别和自然语言处理领域间融合的一个前景广泛的研究方向。

图像描述问题（image caption）的发展历史相对其他深度学习任务来说并不算太久远。

CVPR（IEEE Conference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议）上关于描述生成的论文皆发表于近六年左右，MSCOCO也是在2015年才推出关于image caption的比赛。

图片描述任务的技术核心是基于深度学习的图像识别技术与文本生成技术。

图像识别是计算机对图像进行处理、分析和理解，以识别各种不同模式的目标或对象的技术，简单来说，图像识别就是研究如何使计算机能够像人一样理解、识别以及读懂图片的主体内容。

识别的过程依次包括图像预处理、图像分割、特征提取以及判断匹配。

相关研究

国内外现如今图像识别相关的研究技术发展基本成熟，国外相关工作有Facebook研发的DeepFace，可根据相片进行人脸匹配；

雅虎收购的图像识别公司IQ Engine开发的Glow，可自动生成照片的标签以帮助用户管理手机上的照片；

国内相关工作有VisionHacker游戏工作室的借助图形识别技术研发移动端的体感游戏，由专注于图像识别的创业公司旷视科技成立；

百度魔图的“大咖配”，可以帮助用户找到与其长相最匹配的明星；

百度的百度识图，通过图片搜索可以找到相似的图片等等。

文本生成是自然语言处理中一个重要的研究范畴，若能自动生成有意义的流畅的文本也意味着机器对文本从理解进入到创作阶段^[6]。

国内外的相关工作也已如火如荼的进行着。

国外相关工作有2014年Automated Insights科技公司的WordSmith技术，其已经在美联社等机构中投入使用，可利用机器高效率的自动生成文本，从而帮助美联社报道大学橄榄球赛事、公司财报等新闻，Wordsmith为其客户创造出了10多亿篇文章和报道，其中包括美联社、雅虎和康卡斯特等；

再如美国领先的自然语言生成的企业级服务公司的Narrative Science工具，其可使FactSet客户端能够自动生成投资组合的评论，使得投资管理公司覆盖的报告范围成指数型增加，并且在季报发出的第一天就能够自动生成点评报告，在产生内容的同时也满足合规要求。

国内的相关工作如2017年南方都市报社的写稿机器人“小南”，其来自北京大学计算机科学技术研究所，小南的首篇春运报道作品共300余字，其在数据自动抓取完成后报道的生成只用了不到一秒的时间。

MSCOCO

Microsoft COCO数据集，已成为图像字幕的标准测试平台

官网http://cocodataset.org/
官网http://cocodataset.org/#download 下提供的代码地址：
https://github.com/cocodataset/cocoapi
其中带有coco的评估代码，会随着当初安装cocoapi时一同安装。
但此处的cocoeval只用于keypoint与instances，不能用于caption。

MSCOCO除了提供了数据集之外，也提供了评测脚本：

官网http://cocodataset.org/#captions-eval 下提供的代码地址：https://github.com/tylin/coco-caption
其中带有coco专用于caption的评估代码

MSCOCO除了提供了caption的数据集之外，也提供了：

MS COCO数据集目标检测(Detection)
MS COCO数据集人体关键点(Keypoint)

评价指标

eval{"BLEU_1"    : float,              # （blue常用来测机翻）"BLEU_2"    : float,"BLEU_3"    : float,"BLEU_4"    : float,"METEOR"    : float,"ROUGE_L"   : float,             #  （常用来测文摘）"CIDEr"     : float,}

作者：西柚媛

编辑：西柚媛

推荐阅读：

如何成功追到微软小姐姐-葡萄媛

我的秋招之路

小媛的大厂面经

项目实战 | Python爬虫概述与实践（二）

2020年腾讯、阿里、百度等大厂秋招薪资大曝光！

十分钟生成自己的疫情地图，小白都能立刻上手！

投稿、交流&合作欢迎扫码进群

记得备注 “昵称-学校(公司)”呦~

点点在看

年薪百万?