推荐系统之标签体系-技术圈

为什么要先介绍标签体系？

一个推荐系统效果好与坏最基本的保障、最基础的是什么？如果让我来回答，一定是标签体系。

我这里说的标签主要是针对物料的，对于电商平台来说就是商品；对于音乐平台来说就是每一个首歌，对于新闻资讯平台来说就是每一条新闻。对于用户画像中那些用户实时变化的兴趣点大都也是来自于标签体系，依据用户长期和短期行为中对于物料搜索、点击、收藏、评论、转发等事件，将物料的标签传导到用户画像上，就构成了用户的实时画像和离线画像中的各个动态维度。

标签体系概览

以京东的标签体系中的京东超市为例用思维导图来拆解，后面我们会详细的介绍如何构建标签体系。

这里对京东超市标签拆解粒度到三只松鼠年货大礼包的实体级别，实际上各个公司的标签体系大致都是如下构成

一、二、三级分类体系都很好理解，参考京东超市的拆解，相信大家就会明白。标签体系中实体标签和概念标签不好理解。

实体标签

必须是名词，且必须是唯一指代。

学术性的解释逼格高，但是不容易理解，回答下面的问题

老板问：苹果，是实体标签吗？
给你三秒钟思考
你回答：是！
老板说：错！
你懵逼：靠！为啥不是？

实体标签的要求：名词，且唯一指代。

苹果，是名词，但不是唯一指代，苹果 = 科技公司、手机、水果、牛仔裤

概念标签

难道我就不能用“苹果”了吗？当然可以用，只不过要给它另外起个名字：概念标签。

概念标签通常表示的是“一类”或“某种相似”的内容，例如

主题词

这里以之家的标签体系举例，要给买车用户推荐评测导购（一级）的文章，用户画像中车的品牌（二级）偏好太粗，而实体标签如奔驰GLC又太细，填补这中间的粒度空白，满足用户购车意图的画像，就加入“代步优选”的主题词，这样不仅保持了推荐的多样性，又不至于过分精准而导致的极度收敛。

以上大致介绍了一下标签体系，那么我们接下介绍一下如何构建标签体系以及其构建过程中应遵循的一些原则。

标签体系构建原则

原则一、放弃⼤而全的框架，以业务场景倒推标签需求

原则二、标签生成自助化，解决效率和沟通成本

原则三、有效的标签管理机制

分别解释以下为什么提炼出这三个原则，分别用于解决什么问题？

关于第一项原则：

每个公司的产品、运营、商务对标签的诉求有较大的差异，同时不同的运营团队的诉求也存在很大差异，⼤而全的标签框架实际是站在用户视角搭建的，但是标签的真正应用者是业务方，所以应该从业务视角来实现。

因此最佳的处理方式是，我们应该放弃顶层的用户抽象视角，针对各业务线或部门的诉求和实际的应用场景，分别将标签聚类起来提供给相应部门。

之家就是非常典型的情况，商业同学更关心用户的消费能力相关的标签；自驾游负责同学更关心用户的位置和出行相关的标签；车友圈的同学更关注用户的社交活跃相关的标签；所以不可能一套标签覆盖整个运营团队，这种以业务场景倒推标签需求的方法，能够与业务场景贴合更紧密，可用性上升。

关于第二项原则：

1. 标签生成的自助化能够让沟通成本降最低

前面讲到各业务线对标签的定义的理解不同，需要标签系统建设团队花费大量的时间沟通。如果能够让业务方自己定义规则，这必然是沟通成本最低的方式。

2. 标签生成的自助化，可重复修改的规则，降低无效标签的堆积

业务一直在发展，如果规则一成不变则很难跟上业务节奏的变化。我曾拜访过一家电商，他们发现半年前定义“母婴客户群”的转化率一直在降低，因此根据实际情况重新修改和定义了“母婴客户群”规则，并命名为“母婴客户群（新）”，这时之前的规则是无效的，且会一直占据计算资源……诸如此类，如果支持规则重复修改的话，这一类无效标签就会大量地消失。

3. 释放数据团队人力，释放业务团队的想象力

数据团队应该花较多的精力在企业的整个数据中台或新业务模型方面，而不是处理各业务线的标签诉求和标签维护上，自动化的标签生成能够极大限度地节省人力和释放团队想象力。

关于第三项原则：

1. 规则及元信息维护

标签相关的规则和元信息要尽可能的暴露给使用者，让使用者在使用的时候，能清楚知道标签的规则是什么、创建者是谁、维护者是谁、标签的更新频率周期等，而不是没有规则，或者将规则存在标签建设团队内部的一个 word 文档中。

2. 调度机制及信息同步

标签之间有一些关联，标签之间的链条断裂，是否有个调度机制或者信息同步机制让大家的工作不被影响。

3. 高效统一的输出接口

将所有的业务信息和用户数据信息汇总在一起，有统一的输出接口，改变之前需要针对不同的业务系统开发不同接口的情况。

我们回顾标签体系构建的三原则，本质上是解决了价值、手段、可持续性三方面的问题：以业务场景倒推需求，让业务方用起来作为最终目标，让标签系统价值得以实现；标签生成的自助化，它解决的是我们用什么样的手段去实现价值；有效的标签管理机制，意味着一套标签体系能否可持续性地在一家企业里面运作下去。

总之，对企业最重要的是：一套标签系统能不能在业务上用起来，能不能覆盖更广泛的需求，而不是一个大而全的框架。

标签体系构建方法