以微信为例，聊聊在内容推荐上AI的一些应用实践-技术圈

Hello～这是公号的第25篇原创文章，感谢阅读

内容推荐一直是流量分发中十分常见的应用方向，如头条的资讯、抖音的短视频、网易云音乐等等。而微信也从去年开始逐渐推出更多内容产品服务，包括视频号、直播、看一看等等。对于微信而言既是机会也是挑战。机会意味微信已经开始探索出属于自己的内容成长方向，挑战则是在如何在庞大的流量上，管好内容的质量输出、推荐服务体验。

而本文也将基于微信当前的内容产品服务，聊一聊微信将在多个场景服务上，都可能会进行哪些AI能力实践。

（值得说明一下的是，本文无意从技术角度探究AI原理，更多从应用场景出发了解当前的实践情况）

那么到底什么是内容推荐？

在当下娱乐高度消费的社会，每个人几乎每天都在接触不同的内容产品服务。尤其是现在推荐算法越发成熟，对用户和内容的理解越发深刻。诸如头条的资讯、抖音的短视频或网易云音乐等等，但这些都是只是用户能接触最表层的“事物”，要想提供这样的服务，背后有着一套成熟的体系。所以在这里也先简单科普下，什么叫内容推荐服务。

幻灯片1.jpg

以上就是一套典型的内容推荐服务体系，具体可以划分3部分：基础服务>内容识别+用户画像>推荐引擎

基础服务

所谓基础服务，即搭建整个系统服务所需的一些基础能力。基于内容、用户及推荐引擎环节，这样的基础服务需要涉及内容源、工程、数据等方面的能力支撑。

内容源：主要包含内容的引入存储、处理管理，把众多非结构化的数据，或者不同形态格式的内容数据，以统一结构化的形式管理，便于为后续内容识别提供统一的方案。
工程：对于这样的能力，需要工程端给予性能优、高可用的研发能力支撑，对服务的计算效能、算法模型的推理服务等都需要较强的支撑
数据：在整套服务中，数据是不可或缺的，对于内容的数据、用户的数据等等，都构筑了以“用户”维度的画像特征，本质上推荐服务把合适的内容分发给合适的用户，那么从数据维度识别用户，就必不可少。而关键的数据就包含用户信息数据（头像、昵称、身份信息等）、行为数据（如当前位置、操作偏好等等）

内容识别

这是本文的重点探讨内容，在推荐服务中，我们要把“内容”这一具体物品给到用户手上，在此前提上是要对内容进行恰当的理解识别，来支撑更好的推荐。而这道工序就涉及内容安全、内容质量及内容体验等关键应用场景，而这部分就涉及大量AI能力的输出。下文也将重点探索微信是如何在这一环节进行AI能力实践，这里也简单介绍几个关键的算法技术方向：

NLP：Natural Language Processing，即自然语言处理，通俗来讲就是研究计算机如何理解人类语言并能进行相关的意图思考。而时下文本识别、关键词抽取等能力输出，主要就是立足于这一技术
CV：Computer Vision，即计算机视觉，任何关于图片、视频等形式，都主要应用这一技术能力
ASR：Automatic Speech Recognition，即自动语言识别技术，是一种将人的语音转换为文本的技术,例如把视频中的音频转译为文本，从而通过文本识别方式进行处理。而这一技术难度主要在于环境干扰程度、语言种类及词汇表丰富性等等

用户画像

前面也提到，对内容识别的同时，也需要对“用户”进行刻画识别，只有对两方面都进行充分识别，那么推荐引擎侧才能进行更好的分发。而用户画像本质上也是对用户打标签，至于需要打什么标签，就依赖推荐策略的制定，但基本的身份信息、生理特征、兴趣偏好等等都是需要具备的。

推荐引擎

一个推荐模型的部署，依赖标签数据、推荐策略等形式的组合，其中标签数据即来源于对内容、对用户的识别数据，而推荐策略则基于业务目标等方式制定，比如基于内容排序推荐、基于协同过滤排序推荐、基于用户行为偏好等等。

以上就是一套完整的内容推荐服务，其中本文重点探讨的就是“内容识别”这一环节。

微信的内容产品矩阵

此前微信的内容产品更多的是提供多入口的流量曝光，而在推出视频号和直播之后，都开始尝试以“推荐”为形式的内容分发。而这样的推荐，已经不仅仅是社交好友间的推荐，更多需要“平台”去介入。但是由于推出了较多内容产品，不同的内容服务其内容源是不一样的，这就意味着微信需要更多去理解它们当前的“内容画像”。

从上图可以看出，搭建目前已有的内容产品服务涉及3个关键环节：

基础平台

搭建这样的内容生态服务，少不了底层服务支撑相应的“内容消费品”，像微信公众号提供内容推文，微信广告管理广告素材的上传、审核及投放，又或者微信应用本身可以发布相应的长短视频、社交信息（文本、图片、视频、语音等）。

内容信息

通过基础平台所提供的能力，支撑了当前大家所熟知的各类内容形态的生产。如文本方面，社交聊天的文字信息、广告素材的标题文案、公众号的推文等等。而这些将积累成为微信一大价值资源，即原创内容源，而微信也可以借助巨大的流量再结合这些内容资源，打造相应的内容服务。

内容产品

对于大众用户而言，最终能够接触和消费体验的内容服务，就是应用表层。而微信在相继推出完视频号和直播后，已经基本形成内容产品的应用雏形。即推荐、广告及搜索于一体的内容产品服务，如推荐中的公众号推文、视频号、直播等等，广告中的朋友圈广告、公众号广告。基本上已经延伸了大众用户日常场景中所能触达的地方。

一些常见的算法评估指标

为方便理解，这里也简单介绍下AI算法能力的常见评估指标：准确率、精确率、召回率、漏报率、误报率

假设当前有100个视频样本集（已去重），其中是电影类视频（正样本）的为70个，非电影类视频（负样本）的为30个。

而针对这一批样本集，算法识别为电影类的视频为80个，非电影类20个。

其中人工验证发现算法识别为电影类80个中实际正确为65个（正样例），剩下15个实际为非电影类（负样例）。识别为非电影类20个中实际正确为15个（负样例），剩下5个为电影类样本（正样例）

1、准确率：

即算法准确识别正样本为正样例和负样本为负样例的总个数，在所有样本的占比。公式为：准确率=（算法预测正确的正负样本内容/所有样本内容）*100%

假设算法识别100个视频中为电影类视频有80个，其中65个是正确的电影类内容（正样例），剩余20个非电影类视频中15个正确的非电影类内容（负样例），则为：（65+15）/100*100%=80.00%

2、精确率：

即算法正确识别正样本为正样例的对象，在所有识别对象（包含负样例错误认为正样例）的占比。公式为：精确率=（算法预测正确的内容/算法预测的所有内容）*100%

假设算法识别100个视频中为电影类视频有80个，其中在数据验证中发现80个里面有65个是正确的，则为：65/80*100%=81.25%

3、召回率：

即算法正确识别正样本为正样例的对象，在所有内容池中实际正样本的占比。公式为：召回率=（算法预测正确的内容/所有正确的内容）*100%

假设算法识别100个视频中为电影类视频有80个，其中在数据验证中发现80个里面有65个是正确的，而100个视频中真正为电影类的70个，则为：65/70*100%=92.85%

4、漏报率：

即算法识别为正样例但实际为负样例的对象，在所有内容池中正样本的占比。公式为：漏杀率=（算法预测错误的正确内容数/所有实际的正确内容数）*100%

假设算法识别100个视频中为电影类视频有80个，即认为剩下20个为非电影类，而在数据验证下发现20个中有5个实际是正确的（即算法未识别到），则为：5/70*100%=7.14%

5、错报率：

即算法识别为负样例但实际为正样例的对象，在所有内容池中负样本的占比。公式为：错报率=（算法预测正确的错误内容数/所有实际的错误内容数）*100%

假设算法识别100个视频中为电影类视频有80个，其中在数据验证中发现80个里面有15个实际是错误的，而100个视频中实际为非电影类的有30个，则为：15/30*100%=50.00%

以上就是算法常规的效果验证指标，而通常精确率、召回越高即代表效果越好。但是不同的业务场景不同，标准是不一样的，有些可能要求高精确低召回，也可能是高精确高召回，所以指标效果基准看业务需求而定。但整体重要性依次为：准确率>精确率>召回率

内容推荐上的一些AI实践

大家所接触被”推荐“的内容，其实是被加工处理过，是一个近乎合适正确的内容给到用户手上。但是要做到这个地步，就需要不少的“潜在”工作。在内容推荐服务中，其实还具备“内容安全”、“内容质量”和“内容体验”等3个环节的场景需求。而在斯洛五层次需求里，对应的便是“生理安全需求“及”尊重需求“。那么接下来，将进一步研究在这3个环节上，微信是如何发挥AI技术能力的价值输出。

4.1 内容安全

上图是微信公众号平台官方规范，包含了诸多方面。实际上内容安全是内容推荐中的第一步，也是最基础的一步。而这里的安全指所推荐的内容服务符合国家、行业、平台及用户自身等权利义务和法律法规要求的规则。广义上包括了平台内外的“合规安全”，平台外指国家规定、行业法律等，平台内则指平台规则、权利义务等。具体来说：

平台外：国家层面是否涉恐、涉政、黄赌毒等，行业层面是否侵犯版权（原创声明）、是否冒认等
平台内：基于平台的产品服务和特性，进行平台产品的使用规范，如禁止辱骂、广告、低俗、灌水等

针对以上的敏感内容，作为一个内容平台是要对其进行安全审核。这里的审核通常是机器审核和人工审核并行，而AI就是做的机器审核。

场景价值

安全是产品是否能持久发展的生命线，如果一旦触碰底线，对网络公共环境、文化传播都有较大的负面影响。一旦平台出现触碰底线的内容，轻则举报投诉或下线整改，重则可能直接被关停。大家可以留意为什么会经常有”谈话“，以及为什么时不时会有些“产品”被点名并要求各应用商店下架，其中一部分原因就是产品服务在传播有损公共利益，造成不良影响的内容。所以不管是哪家公司产品，这都是需要十分关注的。

能力输出

当前行业内，对内容安全审核这一环都有各自成熟的产品能力输出。譬如百度、腾讯、阿里和网易（易盾）等。通常对于这块的AI能力输出，对于微信而言，存在以下的应用实践

1）能力类型

由于微信的内容形式较多，但有些是单一的内容形态，如纯文本的聊天信息、朋友圈动态等等。但也有多形态集合的内容服务，譬如公众号推文、视频号的视频内容等等。不同的形态，所采用的AI能力也是有差异的（在算法规则上）

单一内容服务：单一的内容形式，只要做采用直接对应的AI算法能力即可。比如文字则依据NLP能力进行文本检测审核，图片则用CV中的图片检测审核。
多内容服务：多个形态集合的内容服务，举个例子像公众号推文就涉及标题文本（30个字符内）、图片、视频、摘要、正文（字符不限）。由于这里涉及较多形态，这里的算法能力输出会更为复杂。

a. 文本检测审核：

主要采用NLP方向的算法能力，针对文本进行安全规则审核。而这些规则d主要结合国家法律法规、平台规范等方面而开发相应的算法模型。譬如可以识别辱骂、广告、涉政等内容。而这里的文本检测除了考验词库数据丰富性，还有考验不同语言的复杂性。

b. 图像检测审核：

主要采用CV方向的算法能力，这里的图像检测包含纯图片及视频内容的审核，实际上视频是由多张图片（即一帧帧）组合而成，所以本质上两者都归属在图像检测审核。但是由于视频较长，基于技术限制不可能把每一帧都进行检测，通常会基于一定策略（随机、按比例抽取等）进行截帧检测。

同时图像的检测会混合多种技术进行支撑，譬如OCR检测识别文本内容、NER实体识别具体内容（如人物、商品）

c.语音检测审核：

语音检测从另外一种方式，就是把语音转译成文本，既而采用文本的方式进行检测审核。所以可以把其当作另一种文本检测方式，但这里关键在于保证语音变成文本后的准确性。

难点1: 多个形态及形态不一的算法能力检测，对算法的技术指标有更高要求。比如标题文本字符有限，检测对象的难度较低，但推文的正文却是字符数不确定，词句之间也有更复杂的语言变化，那么同样做文本审核就更为困难
难点2: 多内容之间存在语义关联（即多模态分析）。再譬如视频号的视频从标题、封面、摘要都没有问题，都含有某一政治人物，但是在视频中出现了一个文字特效，这个文本内容同样表达辱骂性质的，那么这样关联起来也是有问题的。

2）审核范围

大体而言，两种主要的审核类型，以上为其支持检测范围内。那么基于这些情况，微信会基于不同的产品服务进行相应的安全检测。直观地看，其实可以从下图可以看出。

图中左侧的2张图，是典型的文本检测审核案例，从这里可以看出这是不同文本做出了是否正常及问题点的安全检测；
图中右侧的2张图，尤其是“已停止访问该网页”图，这是大家常见微信的一种的异常处理方式，显然这是一个垃圾广告营销性质的推文而被封禁。而最后一张图则是正常的一篇推文，对标题、视频中的文本、水印等其实也会进行相关检测，完成安全审核。

3）小结

大家日常在微信所能看到的内容，其实是做了一定内容安全而审核过滤的。但是通常平台不会百分比交给AI来实现，因为有些识别存在边界模糊的情况，而这些内容本身存在极高敏感性。所以通常在内容安全场景，都会进行“机审“和”人审“的结合，最大程度保证安全。

所以在安全审核场景下所涉及的AI算法，诸如文本图片的高敏、低俗等，会相对关注“漏报率”和“误报率”，简单来说，对于平台而言审核错了，重新开放即可。但是一旦安全审核漏了，最终呈现给用户，如果内容恶劣程度十分之高，那么将会造成极大的负面影响。所以这两个指标也是该场景的各类算法尤其关注。

4.2 内容质量

内容质量是内容推荐过程中是否高优推荐的一个标准。而所谓内容质量，除了内容合规、社交好友推荐以外，单看这一内容本身是否为原创、篇幅（视频时长）长度、内容结构是否清晰简洁（标题党、图文不符）、视频图片是否清晰等等。但由于这一类型内容本身有着复杂的语义关系，如果要通过AI完全判断是否高质量其实是很难的，因为本身没有一个常规的标准。但是一些基础的判断是可以做到的，譬如图片质量、文章质量等等。

场景价值

对于很多内容创作者而言，可能也都清楚当内容的“质量”达到一定水平，一般官方平台都会加大推荐力度。因为假如内容作品质量欠佳，过多推荐一是影响平台的调性，二是消耗用户的兴趣度，长期以往只会造成更大的损失的。因为好的内容，才能真正挽留及打动用户。

能力输出

从上图可以看出，左1显示微信直播游戏垂类下，动物封面和品类风格推荐不一致的情况。而右侧的2张图，则是高清晰和模糊画质视频的对比。而这些都是内容推荐上，常遇到的质量问题。

那么针对在质量检测上，同样有诸多场景将可以值得探索。而在微信内，主要可以有2大维度“内容结构、素材质量”进行实践

1）内容结构：常见包括标题党、图文不符（即文中插图、封面插图与内容无关）、声画不符（即视频内容和音频内容不一致）等场景。

2）素材质量：包括清晰度（图片、视频等）、音频质量（如卡顿、无声、噪音等）、声画不同步（如延迟）等场景。

清晰度：有时候视频或者图片的清晰度，会影响用户感官感受。清晰度的识别也是当前内容分发中常见的应用场景。而这一能力主要能够识别当前图片或图像是正常或是模糊等鉴别，那么这里就依赖多个技术集合，如人脸检测（人物主体是否清晰）、分辨率识别（图片截帧识别分辨率或像素）、OCR等等
音频质量：如果是视频内容或者是音乐内容，那么就需要注意当前分发的音频是否出现卡顿、无声或噪音等等，如果能从AI上进行这样的支撑，则能在分发时就规避这些低质量内容。
声画不同步：实际这也是存在的场景之一，即视频在播放过程中，音频会出现延迟或提早，与视频当前播放内容出现不一致。其实这样也会影响体验效果。

3）技术支撑：针对以上的场景，输出相应的AI能力前提也是需要依赖更多的技术手段作为支撑。其中有几个有些比较抽象，无法理解。那么这里举个例子，来介绍一下。假设需要判断图中中间的视频内容，确实与主题内容相关，需要分别进行哪些能力支撑。

OCR检测：因为是视频，需要通过OCR来识别其中的文本，如弹幕、水印等，来收集数据
关键词抽取：通过OCR识别的文本，视频本身的标题等，进行一系列的“关键词”抽取，可以识别出诸如“电影”、“海报"、“爱乐之城”、“高司令”等关键词。但是这些关键词都是独立个体数据，没有关系，那么接下来就需要知识图谱及NER来进行进一步的“联结”
知识图谱：结合NER实体识别以及上述的关键词，基于知识图谱关系来梳理出“电影-爱乐之城-男主角高司令”等这一系列有序的数据。
内容分类：实质为分类标签，即对内容打标进行各级分类，从以上的数据可以看出它是属于电影类（一级分类）-欧美电影（二级分类）这样的关系。分类的全面性及细粒度体验当前平台的分类标签能力。如果平台足够储备这样的分类数据，结合以上的数据，就可以快速识别该内容是一致的，可以进行推荐池基于推荐规则进行分发。

4.3 内容体验

在做了内容安全、内容质量的环节后，内容在推荐过程中已经得到了一定的分发。但是此前都是针对单一内容作品进行AI能力支撑，而在推荐过程中，以及多内容分发时，遇到的又是另一重问题。而内容体验指的是内容在推荐过程中，所给用户带来的体验感受。基于这样服务场景，AI同样可以进行一些能力输出探索。

场景价值

大家在体验信息流推荐时，譬如抖音或者当前微信视频号的推荐频道，大多基于用户偏好、行为偏好等方面进行策略推荐。这样就有一系列体验问题：

假设作为消费型用户，我喜欢体育及科比球星，那么是否推荐都给我推荐科比的视频？
假设作为内容生产型用户，大家都创作了科比的视频，你一个我一个都这样推荐给用户，看着对内容生产者有利益，但对于普通用户而言是否就有帮助？
假设作为内容生产型用户，我手上有几个视频号自媒体矩阵（以及都有较高的粉丝量），但是这几个账号里面有些作品内容是几乎重复的。那么作为平台方，该如何规避这些不同账号但旗下内容重复的分发？
假设有一个地域性的新闻视频，所报道的内容是跟深圳本地强相关的，但是在没有做分类及位置信息的前提下，怎么最大化地把这个内容合适推荐给本地信息流里面去？

单看某一条内容从安全、质量两个层面来看都是ok的，但是仅仅考虑这两点是完全不够的，关注用户在内容推荐中的体验情况，并持续优化，最终反哺平台发展（譬如因为体验更好增加停留时长、互动次数频繁等等）。

能力输出

在已经完成了安全和质量检测后，内容已经具备一定的可观赏性。那么想要进一步改善用户体验，主要在于推荐的内容是否准确和契合用户喜好，而这部分更多是推荐策略的工作。那么剩下的就是使用体验上尽可能得到提升。那么在此环节，算法所能服务的应用场景主要涉及3个方向。

1）内容重复：这类问题场景，是时下内容推荐业务最常见的问题。一个原因在于创作者本身是多媒体矩阵，可能不同的账号会进行同内容的发布。其二是内容平台本身也会从第三方平台引入内容，本身内容的来源归属就不可控，所以也不可避免引入的内容会和其他第三方平台内容存在重复。包括短视频推荐、新闻资讯推荐、直播推荐等等，大家可能在日常中都会偶然刷到重复内容。这里重复的情况主要分为2种：

纯内容重复：即内容完全或接近一致。这种可能存在同一账户下多条内容重合，或不同账户下同一条相似内容重合。从上图中的左侧1、2可以看出，这是同一时段内（23点34-35分间），同一条相似内容在不同的账户下发生重复现象。明显微信在这方面其实还没做到精细化的管理，但是AI能力上，其实是可以进行“重复”判断及置信度的反馈，获取这样的算法标签时，在内容推荐分发上就可以一定程度上规避这样的情况。即假设用户已在头一条成功曝光和观看内容，则在相似的下一条基于已有重复标签，在去重时间窗口内（如3个月内）进行过滤分发。
主题性重复：即在内容推荐过程中，主题分类或话题性十分相似。譬如前面提到科比视频，如果在视频推荐中前10条中7条都是科比的（尽管具体内容不同），但是基于偏好不能直接分发给用户，因为这样看似迎合了用户喜好，但实际反而造成用户观赏疲劳，相似性内容太多缺乏好奇性和新鲜性，最终影响对平台的感官感受。这里的支撑，依赖于主题分类的规则制定。

2）内容分类：垂直分类是内容推荐的一个重要支撑点，因为用户本身有对某些特定的领域会有强偏好表现，那么在推荐上就要有所侧重。但是用户主动选择主题分类发布本身是一个不确定性行为，甚至有些还选不正确（有边界模糊）。所以这时候AI算法就可以协同进行“分类打标”，但是技术侧能把海量的视频进行准确分类打标，也是行业常见的一个困难点。并且分类不仅仅是一级分类，还要尽可能做到更细粒度的分类，即多级分类，如电影、电影_纪录片、电影_纪录片_人物传记。分类是否科学、标签是否准确，都极具考验。

举个例子，仍旧以科比视频而言。左侧为科技的纪录片视频，右侧是关于科比体育比赛视频，本身都带有体育、科比、竞技性质内容，但两者却属于不同的视频类别，这对AI而言，需要建立全面和准确的分类标签体系，这就需要大量的AI技术做支撑。

3）地域识别：基于地理位置增加内容分发曝光的机率，是当前各大内容产品基本都会采用手段。从微信的视频发布及直播中支持“添加位置”以及同城视频分发的功能，就可见其重要性。

那么假如当前内容没有标记地理位置信息，又该如何去识别内容对应的地域属性？不同的内容形态，采用不同的方式。像图文资讯（类似公众号推文），则可从文本中切割关键词进行地域信息提取，以及加工处理组合成结构化的地域属性。而视频内容也是类似，只是因为图片算法检测，需先通过OCR识别或各类物品识别提取文本数据，继而进行相应的地域属性识别。

总结

以上就是结合当前内容推荐业务和微信的内容生态状况，作出了AI所能应用实践的探索研究。但文中提及的应用实践也许只是冰山一角，毕竟整个生态服务十分之庞大，能够做到各类的精细化服务是长期的工作。

此外，关于微信在这方面的内容推荐实践上，未来仍旧还有不少工作需要落地：

1）微信的内容推荐业务还处于起步阶段，尤其是视频推荐，未来的质量和效果体验将会有较大的提升，而AI在其中的实践也将有较大的空间进行发挥

2）整体而言，微信已经搭建了基本的内容推荐服务产品体系，但是在功能完备上，当前还是比较克制。尤其是新推出的视频号、直播，对比同类型竞品，所能实现的能力还是偏少。但个人认为微信更多在探索属于自己特性的内容发展方向，无意成为另一个常规的推荐系统、直播系统

3）当前微信的内容推荐业务更多的只是发挥流量分发作用，即引入外部内容源到微信生态中进行消费，实际还缺少了标准统一的“内容生产”环节。一个内容产品服务除了推荐侧做得足够好，在内容源也是至关重要，所以在构建自身的内容库方面，微信还有很长的路要走

4）内容本质上依赖创作者的输出，即PGC和UGC的共生，但是基于内容账户体系的建立，尚未形成集合账号、内容于一体的账户等级服务体系。同时“原创”作品在一个平台的价值是十分大的，参考当前各大内容厂商，都在推出创作者计划并扶持各自优质的内容创作者

最后，如果大家想要对AI技术有进一步的了解，不妨多关注腾讯云、阿里云、百度大脑及网易等多个平台，在人工智能领域的一些技术探索。

「往期回顾」

过去一年，总结一下关于“阅读”这件事（附11本书单分享）

打开产品求职面试的正确姿势（内附40道面试题）