卧槽！用户画像详解来了-技术圈

导读：今天主要和大家分享明略对于用户画像的认识，包括如何理解用户画像，为什么需要用户用画像，以及明略在建设和应用用户画像过程中总结的方法论，让大家了解如何构建好的用户画像。

什么是用户画像

首先来看用户画像的定义。

1. 用户画像的定义

上图是百度百科中的定义。这个定义有两个重点，一是勾画目标客户，二是行为、属性。这个定义强调了用户画像的本质是对目标客户的一种勾画或描绘，这种勾画比我们平时在马路上看到的快速肖像画要丰富得多，多出了行为、属性。

那么换一种技术化的视角，画像的定义是什么？

引用这个定义是为了引出标签的概念，以及标签在画像中的作用，或者说标签和画像之间的关系。标签可以理解为对用户各种类型数据的提炼总结，可能就是用一个词或者说是用一个短语来表达用户在某个方面的一项特征。用户有各种各样的特征，因此需要有海量的标签去完整地描述一个用户。这样做的好处在于能够可视化表征用户特征，让我们更加便捷清晰的了解我们的客户，这是用户画像的意义所在：用户画像其实就是对用户关联数据去进行可视化的展现。

一句话总结一下，用户画像的技术特点就是把用户的信息标签化。

2. 常见用户画像维度

到现在为止对用户画像进行了多种角度的定义，但还是停留在概念层面，不够直观。下面举几个例子加深理解。

首先看一个人物画像，它其实是由各种标签来构成的，文静、可爱、善解人意、活泼等等，都是对用户某些属性的描述，非常直观。在这张图上也可以发现，标签被分成了几个类型，有基本属性类的，有消费购物类的，还有网络社交类，其实还会有更多的分类，在这里没有一一列举。之所以会形成对标签的分类，一是便于对标签的管理，另一个重要的原因是在不同的场景中，这些标签可以帮助我们实现不同的目标。场景和目标是非常重要的。

结合这张图：蓝色的像年龄、性别、所在的区域，都是一些比较通用的基本属性，可能在多个场景中使用到。这类标签通常是会再去配合其他标签去使用。而左上角黄色的消费购物类的标签，可能在电商场景中会用的比较多。根据用户的标签，比如消费偏好领域为服贸，我们判断用户可能购买服装类的物品会比较多，因此在进行推荐或者是促销的时候，可以优先挑服装鞋帽等品类推送给用户。但如果不考虑这些标签，而去给用户推荐一些3C电子类的产品，用户可能会完全不感兴趣，也就起不到促进购买的作用。

再比如“偏好价格区间”是“200到500”。虽然我们偶尔也会不太在乎价格的购买一些非常心仪的东西，但大多数的购买其实还是会在一个范围区间之内，这个区间可能用户自己都不能直接的量化出来，但是通过用户画像，可以将其框定在某个范围之内。这就是“画像比你自己更了解你自己”的点之一。通过对于偏好价格区间的标签化，企业就可以针对性的进行后续的推荐和促销，效果也会更加显著。

最后我们来看网络社交类的标签，左下角紫色的部分，基本都是和我们日常使用社交网络相关的，图例中都是和微博相关的，比如说粉丝数、关注数、互动数等等。在进行社交舆情分析的时候，网络社交相关的标签对我们的分析会非常有帮助。

3. 金融产品常见用户画像

前面列举了用户画像在营销和舆情分析场景中的应用，其实还有一个非常早就开始应用户画像来助力其日常业务的领域，那就是金融领域。而金融领域里面最常见的一个场景就是信用评分画像。

在这个场景中，可以看到用户的标签都是和个人信用相关的，和前一个例子的标签集合差异比较大。跟个人信用相关的标签包括，如用户在平台的注册年限，是不是修改过注册信息，是不是在其他平台有过逾期行为，还是一向都表现良好，也包括用户的个人信息，比如婚姻状况，有没有小孩儿，以及在社交媒体上的表现，比如粉丝数，活跃度等等。这一系列的信息都可以综合起来，帮助我们判定用户的信用评分及信用等级，辅助业务部门去做出决策。这又提出了一个非常重要的概念，就是辅助决策，后面我们也会提到这一点。

4. 群体维度常见的画像

除了可以对单个用户去进行画像之外，也可以对某个群体来进行画像。

前面在定义阶段，我们说画像其实是一种可视化的展现，但是这个展现的形式不是单一的。举个例子，对微博上某个车评人的粉丝情况的分析，和刚刚单一用户的画像就很不一样。单一用户画像，更多的是把每一个属性进行分类和排列，帮助我们了解某一个单独对象的信息。而针对群体的画像，更多的是将单一标签类型汇聚在一起，去展示统计信息（也就是标签、标签值的分布），比如说性别里面男女各占多少比例，地区里每个省份所占的比例，或者是每个省份的热度是多少等等。而在处理连续的值，或者说比较多的离散值的时候，我们也可以去进行分段，比如说右上角年龄，可以针对典型的年龄段进行划分，至于具体怎么去划分，则是业务强相关了。

为什么要做用户画像

前面对于用户画像进行了理论上的定义和直观上的认识，那么，我们为什么要去构建用户画像，构建出来有什么用？下面和大家分享一下我个人的一些看法。

1. 为什么要做用户画像

我们从业务和技术两个角度进行理论分析。

在业务层面，我们通过用户画像可以去构建具象的认知，构建战略和战术方向，同时也可以去探索用户足迹，形成以用户为导向的一个方向。在对核心用户达成统一而且具象的认识之后，我们后续的投入才能方向明确，有的放矢。

在为用户设计产品的时候，要以用户为导向，清楚地知道目标用户是什么样的，有什么样的行为、属性特征。根据用户画像信息来做产品设计，才可能为公司提供一种战略和战术层面上的指导。

探索用户的足迹，形成用户走向，是指在详细了解真实用户是如何和产品及其相关内容进行互动之后，我们才能进一步的去深化产品。当我们为用户进行画像的时候，一定是要从这种业务场景出发的，带着业务场景的目标去解决实际的业务问题。比如要去进行画像，要么就是去获取新用户，要么就是去提升用户体验，再或者可能是为了挽回流失的用户，总之一定是有非常明确的目标在先。

从技术层面上讲，我们通过用户画像的构建，可以帮助构建底层数据基础，来服务上层应用，同时也方便对于信息的处理。

其实用户画像除了可以做比较直观的展示之外，更多时候是服务上层应用，比如在推荐系统里面，用户画像作为推荐系统非常重要的一环，能够提升推荐效果；另外像前面提到的金融领域的应用，用户画像也可以在风控应用，作为一些规则特征而存在，用于量化用户的信用等级。

有标签之后，计算机可以方便地处理一些量化的需求，比如去做分类统计，或者去做深入的数据挖掘，喜欢买榴莲的用户，通常喜欢什么服装品牌，经常又买咖啡又买大蒜的用户的年龄段分布大概是什么样子等等，基于画像，我们可以做一系列量化分析。

总之，用户画像可以完美地抽象出一个用户的信息全貌，是企业应用大数据的根基，可以帮助企业为用户提供个性化的产品和服务。对于给客户提供服务的企业而言，我们最终的目的都是，在用户使用企业提供的产品、打开APP或者网站的时候，可以看到的内容和体验都是针对他来设计的，或者说是符合用户的调性的，这就是所谓的千人千面，这样用户的体验才会有真正的提升。

2. 示例：画像支撑业务应用

接下来，结合明略的用户画像和营销自动化产品，来给大家举一个画像支撑业务应用的例子，非常浅显易懂。

例如，我们想要举行一场营销活动，但是不希望直接面向所有用户群体，而是针对某一类具有一定特征的用户来去进行。首先我们就会用到用户画像产品，根据目标用户的标签来去进行人群圈选。目标用户的标签，指的是，根据业务上确定的条件，在画像产品里面通过输入条件来把目标人群圈选出来。比如说通过消费行为的标签，可以把360天之内都没有进行过购买的用户，筛选出来。下一步，真正去做营销的时候，就可以将上一步中筛选出来的用户群体作为活动的目标人群，轻松的实现定向营销。

以上，我们将画像视为一个整体，讨论了它的作用、存在的必要性，也谈到了标签，画像和标签之间存在着紧密的联系。下面我们来具体来谈一谈标签的重要性，标签到底有什么样的作用。

3. 标签的作用

标签可以将数据及其含有的信息转化成带有明确的可决策行为的指导。
人参与决策越多的地方，越需要将信息数据进行标签化，以提升人对数据的理解和处理效率，实现人机协同。

下面讨论这两点的具体含义。观察一下所谓的数据产品，比如营销领域的DMP、CDP，或者一些通用的数据产品，BI、DASHBOARD等等，它们的共同之处在于，关注如何用数据让人去产生快速的理解。

比如说在当今疫情环境下，有一个大家日常经常会遇到的标签，体温超过37度，可能就是发烧需要去看医生了，这个发烧点就是一个重要的标签。再比如驾车过程中，如果时速超过120，导航上的显示就变成红色，这也是一个非常明确的标签，说明已经超速，该松油门降速了。所以我们在日常生活中其实总是能遇到一些特别典型的标签，指导我们去做决策。

我们再从另一个角度来去看一下，为什么我们需要去做标签。以各种新闻类或者短视频类的APP为例，其背后普遍有非常好的推荐能力，这些推荐能力可能不需要标签，因为它有大量的用户反馈数据去帮它做决策，就可以自己不断的去进行刷新，去训练提升它的模型。但是如果说某些场景环境需要人来参与做决策，人参与决策的地方越多，就越需要将数据和信息进行标签化。因为人处理信息不可能像机器那样，通过大量的运算来决策。人类能够处理的信息其实是有限的，为了提升处理效率，最终实现人机协同，我们要把大量数据和数据演算的结果，通过信息的标签化，变成人可以快速理解快速去做决策的形式。

下面我们来举一个例子看看标签的作用，如何通过下面这4个步骤将数据转化为标签，并且最终指导决策。

第一步：数据在线

数据在线指的是通过数字化转型，将业务流程在线化，这样业务流程中产生的数据也就跟着实现了在线化，具备了进一步处理的先决条件。比如以前我们都在超市里买东西，其实很难去统计哪个用户买了什么东西，后续的分析也就很难进行。现在很多人都在电商购物，购物记录实现了数据在线。未来，随着越来越多的业务流程在线化，可以分析的内容也会越来越丰富。

第二步：数据信息转换

用户数据转换为信息，这个信息指的是，在我们业务场景下能够解读出来的内容。比如用户姓名王二妮，是一个女性化的名字，当然，可能并不是所有的转化都这么直接。从数据到信息的过程中，需要基于对业务场景的理解，我们不仅需要直接的分析数据，转换数据，还需要赋予数据新的信息，这就是所谓的信息转换，信息增益。

第三步：信息标签转换

我们可以通过一些规则，将信息转化为标签。举个例子，当我看到这信息（用户名叫王二妮）的时候，我们就可以判断，大概率90%以上，这个用户是一位女性，就可以给用户一个性别标签，这是一种预测性的标签，所以这个标签是带有权重的，比如90%。

第四步：标签指导决策

根据标签如何产生决策？在电商场景，用户购买了一款婴儿奶粉产品，接下来该如何去跟他互动？我们结合性别女的标签，去判断，用户大概率是一个妈妈，就应该是适用妈妈型的沟通方式和称呼。这个当然也有可能会有错，比如用户是帮别人买的，送人的。因此可能会要结合多种标签应用，帮助我们决策用什么方式去和用户进行沟通。在这个环节中，并不要求决策百分之百正确。因为大多数业务只是需要一个可以尝试的推荐。接下来每一条数据都是这样的，比如通过数据在线，获得了收货地址，东城区特别贵小区302，通过信息增益补充了房价信息，然后再结合收入和房价模型，就能大概推断出用户的大概收入水平，生成收入水平标签。有了收入水平标签后，能进一步指导决策：对于收入水平比较高的用户，推荐更高端的产品系列。这就是一个典型的，通过数据转化为标签，最终指导决策的过程。

如何构建用户画像

明略在用户画像构建，标签体系构建，标签生成方面，不仅有成熟的产品，例如CDP、DMP，也有非常专业的实施服务团队和方法论。下面，结合明略自有的方法论和通用的方法论，和大家聊一聊如何构建用户画像。

1. 数据在线

画像构建流程的第一步是数据在线，也就是数字化转型，应用系统打通，终端埋点建设等等，技术层面内容这里就不一一展开了。

这里说一下我们比较关注的两类数据，一开始在定义阶段就提到过的属性和行为，具体包括静态数据和动态数据。

(1) 静态数据

静态数据是用户相对稳定的一些信息，如人口属性、商业属性等，这类信息通常自成标签。如果说企业有真实的信息，就可以直接进行转换，不需要建模或预测，更多的是数据清洗的工作，但如果某些静态信息不准确或者缺失，可能需要进行建模预测，后面也会提到这几种情况。

(2) 动态数据

动态数据是用户不断变化的行为信息。我们可能会更多地聚焦在用户在互联网上的行为，比如在浏览了某品牌的网页，浏览了某一个品类的一个单品页，或是发了一条微博等等这些信息，这种就是动态数据。

这两类数据对构建标签非常重要，也非常有用。

2. 标签体系建设

数据有了之后，在构建标签之前，我们先聊一聊标签体系的建设。

所谓标签体系，是基于我们既有经验预设好的，用数据解决问题的模型。我们在设计标签体系构的时候，参考了通用的数据解决问题的方法论，即：

第一步：明确问题和目的是什么，用数据解决问题也不例外；
第二步：梳理现有条件，从中锁定问题的关键点；
第三步：确认分析的维度，即确定分析的对象以及分析角度；
第四步：确定分析方法，例如，求解一道三角形相关的几何体，明确分析对象是三角形，下一步应该考虑用哪个定理去分析它；
第五步：圈选，圈定数据来得到结果，把思路都理顺之后，只需把题干中条件数往公式定理中一带，就能得出最后的结论，算出答案。

以上五步，就是用数据去解决问题的通用途径。制定标签体系设计路径的时候，也是类比通用路径，因此也有五个步骤。

第一步：明确带目标的场景。所谓带目标的场景，指的是，设计标签体系要解决的是什么场景下的问题。不仅要知道场景，还需要知道具体的目标。比如广告投放是一个场景，这个场景里面可能会有多种不同的目标，可以是在固定投入的情况下，触达到更多的人，或者是在固定触达人数的情况下，尽可能减少预算；如果要选媒体，那么在不同的目标之下的情况可能也是大不相同的。
第二步：明确场景中的流程和角色。比如广告投放的场景，角色可能会有哪些？比如要选媒体，选媒体点位，选完点位之后，需要确定投放的素材，确定完素材之后，还需要确定时间。考虑时间的时候，还要考虑每个媒体提供的不同的时间的人流量表现是不一样的。这个过程中就包含很多的角色，这些角色在不同的环节中完成不同的工作，他们的关注点也是不一样的，我们需要了解每一个角色在这个过程中需要去解决的问题是什么。
第三步：明确场景中需要被标签化的对象，也就是要去给谁打标签，比如刚刚提到的场景中，我们做广告投放的时候，如果说目标是要去触达到更多的用户，那么用户可能就是打标签的对象。
第四步：明确我们不同对象在场景中需要的标签类型，例如，是基本属性标签，还是消费偏好表现，是动态标签，还是静态标签，是预测标签，还是行为标签，等等。
最后：确定了类型之后，需要列举出标签的值，比如人口属性标签中的年龄段标签，需要进一步确定出“0-15岁”，“16-18岁”，“18岁以上”等具体的值。

以上是我们构建标签体系的比较通用的方法论，适用于各种用户画像构建过程中设计标签体系。

3. 标签与权重

用户画像的最终形态，就是通过对用户行为的分析为用户打上标签，以及标签的权重。那么，标签与权重，具体是什么样子？

以这两个标签为例：李宁0.8，小米0.6。标签的部分，表征用户对哪些内容有兴趣、爱好或者需求，权重则表征了爱好或者需求的指数，也可能是需求度、可信度、概率等。

4. 标签建模方法

下面对标签建模方法做进一步讨论。标签是对用户标识、时间、行为类型、接触点（网址、内容）的聚合，即，因为用户在什么时间什么地点干了什么事，所以我们才需要给用户打上一个某某标签。进一步的，从整体思考和建模，可能需要加入权重方面的设计。例如，在某些场景下，我们需要定义时间衰减因子，即时间越长，可能性或者说概率就越低，权重也就越低。

举例说明：某用户，前天在天猫李宁官网上浏览了一双鞋，昨天在天猫超市买了一个杯子，我们可以比较轻松地提取出来几个标签，李宁运动鞋、杯子，以及相关时间，昨天发生，前天发生。我们再做一个简单的假设，重要性每天可能会有百分之十的衰减，就是前一天可能是今天的0.9。

对于行为类型的标签，不同行为权重不同，比如购买行为权重是1，浏览权重只是0.5，也可能引入地点的权重，例如品牌官网的权重可能会重一些，天猫超市可能稍微低一些。

所以计算标签的时候，需要把以上所有内容都考虑进去，时间衰减、行为类型、地点等等，计算出标签以及权重值。

上面讲的这些方法和例子仅供参考，当我们真正去设计标签的时候，首先需要根据业务需求进行建模，然后才能明确标签、权重的值到底应该是怎样设定，并且要不断的迭代和优化。

5. 标签分类

下面我们从另外一个角度去看一下标签的分类，如图所示，分成了四层：

底层：其实不是标签，而是原始数据，是我们通过数据在线从各个渠道中采集汇聚回来的数据，通过这些数据进行简单的分析就可以得到第一类标签-事实标签。

事实标签：是从一些简单的事实中提炼出来的，甚至是不用提炼直接就能形成的标签。例如原始数据里面已经有了用户的注册信息，其中有用户的性别，可以直接构建标签，也有的可能需要经过简单的统计，比如通过累加，我们能得到产品购买的次数，投诉的次数等等，这些都是一些基于事实直接可以拿到的标签。

模型标签：如果标签不可直接获得，通常就需要通过建模计算来生成，比如通过对历史购物行为的建模分析获得用户的产品购买偏好：对于哪个品类或者哪个品牌的标签权重是多少等等。

预测标签：这类标签的生成更多是依赖算法。例如在电商场景中，可以通过用户购买的商品、年龄、性别，预测用户的人群属性：年轻的妈妈，或者高收入白领等。

以上，就是关于标签分类的讨论。

6. ID打通

讨论了数据在线、标签体系设计、标签生成之后，我们来说一说构建画像过程中另外一个比较精彩的部分，通过Super ID的构建来实现ID的打通。这里暂且不讨论具体的技术，重点分享为什么需要实现打通。我们前面讨论的构建画像的过程其实是简化了的：假设来自不同场景的数据都可以直接和用户产生关联。而在实际场景中，企业可能构建了多种渠道触达用户，可能是直接提供服务的渠道，也可能是广告营销的渠道，渠道的多样化就导致了用户行为的碎片化。如何将复杂的碎片归一化，认知用户特征，最后形成用户画像，挖掘用户需求，这一系列的解决方案是很重要的需求，也是大多数企业今天面临的挑战。

在明略的解决方案中，我们围绕用户构建了一个SuperID，通过一些确定性的绑定关系和一些不确定性的匹配关系，将这些多种渠道获得的ID围绕Super ID形成连接，最终实现多个渠道多个ID的打通，这样就可以将多个渠道获得的用户行为数据进行连接，来支撑模型标签和预测标签的计算。

7. 用户画像示例

最后结合我们的用户画像产品，举一个简单的例子。当今很多企业可能会有多个触点来获得用户行为，在左边的图中，有四个触点，因此形成的用户的多个碎片化的信息：可能是关注了公众号，通过一次广告点击进入到了活动主页，然后在小程序里面进行了一些咨询，最后线下购买。我们通过不同渠道，获得了用户的行为。当我们把这些行为串联起来去看的时候，可以直接从行为中提取一些事实标签，例如关注了公众号，那就是“xx公众号的读者“，使用爱奇艺，可能是“xxAPP的使用者”，关注了新品，因此是“xx新品的关注者”，这些都是比较直观的解析。通过这些直观的解析，再经过模型的计算，我们就可以得到一些深层次的标签，例如，商务白领。怎么推断出来的？用户在南京西路商圈活动，同时还在这个地方消费。假如用户只是去看一看，不买，我们可能也推断不出来，但用户既在附近活动，又消费，我们就能做一个推断，用户是一个商务白领等等。结合这种行为解析，就可以产生高层次标签。

其实刚才的例子少了一个步骤，如何将从多个渠道获得的用户数据打通？建立Super ID。通过第一个渠道，我可以把用户的deviceID或者openID连接起来。第二个渠道可以把手机号和openID连接起来。通过引入一个Super ID作为唯一标识，就可以把所有渠道里获得的信息进行串接，打通。完成这部分之后，我们就把整个用户的属性进行了归一化；通过标签生产，还可以进行人群分类。比如我发现用户是一个商务白领，同时年龄是在20到35岁之间，可能就可以把它分到年轻白领人群里面去。这是我们对于用户分群的支持。

通过前面这几个步骤的工作，包括数据来源，从数据中直接提取一些基本标签，用户的行为轨迹追踪，ID打通，以及基于客户特征的分群等等，我们拼成了一个真正的用户的样子，能看到这张图就不再是碎片，而是形成了完整的360度的用户画像。

精彩问答

Q1：在标签建模的过程中，如何为新登录的用户打标签，如何为具有较少行为的用户打标签？

A：这个问题其实可以理解为怎么针对用户做冷启动的问题：当用户行为比较少的时候，怎么去标识他。其实就是我刚才提到的，当你从这一个渠道里获得用户的信息不多的时候，就要去尝试如何能够获得数据在线的能力，从多个渠道获得更丰富的信息，然后再来对用户进行（建设）更全面更丰富的标签的过程。

Q2：明略科技更多是乙方的角色，为很多企业（甲方）搭建了用户客户画像、落地了很多项目，想请教一个问题，我们观察到，市场上很多用户画像没有发挥出应有的价值，可否帮忙从乙方的角度总结一下，你觉得一般来说，会有哪些因素制约用户画像的落地效果？

A：结合之前方法论提到的一点，构建画像的第一步，应该去锁定带目标的场景。可能很多乙方在给甲方服务的时候，会强调，我有很多经验。经验有好的，也有很多不好的地方，比如一味的重落地，忽略了甲方的实际目标是什么。没有透彻的理解甲方的场景，就把经验、标签铺上去，这时候，经验反而成为了绊脚石。明略这边非常注重第一个步骤：重视客户端场景和业务目标。如果第一步没有做好，往往就事倍功半了。

Q3：建立SuperID时，出现多对多的情况，应该怎么处理？

A：有不同的处理方法。当出现多对多的时候，可能有几种场景，一种是您刚才说的，一个人有多个device id。这种是合理的业务场景，需要存多个。技术选型就不在这里讨论。另外就是在不同渠道拿到不同的信息，比如，从某个渠道拿到用户的信息自称性别是男，另外一个更加靠谱的渠道，比如从身份证信息中拿到用户的更高权重的信息，性别是女，这种从业务场景上来看，是不可能存在多个的，我们需要选择可信度更高的。

今天的分享就到这里，谢谢大家。

·················END·················

卧槽！用户画像详解来了

推荐阅读