​【数据产品经理:实战进阶】用户画像从0到100的构建思路

机器学习算法与Python实战

共 5369字,需浏览 11分钟

 ·

2020-09-19 21:27

↑↑↑点击上方蓝字,回复资料,10个G的惊喜



文章作者:杨帆、杨楠楠  编辑整理:Hoh 出品平台:DataFun

内容来源:《数据产品经理:实战进阶》


导读:用户画像作为当下描述分析用户、运营营销的重要工具,被全部互联网人熟知,用户画像的定义并不复杂,是系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主key的标签树,用于全面刻画用户的属性和行为信息,这就是用户画像。

画像这种结构化的用户信息加工方式,极大程度上做到了完整、全面且直观地刻画用户。画像是用户在产品的档案,便于人工使用、机器输入和算法理解。而言之:画像是由标签树及末级标签的标签值构成的,全面定量刻画用户的结构化信息产品。画像是标签的总成,用户标签是具体刻画用户的结构化信息,以下简称标签。

本文将介绍用户画像的构建思路,在画像构建的过程中,我们把工作分为两步:

  • 第一步:介绍从0到1的构建思路。

  • 第二步:介绍从1到100的构建思路。

1. 画像从0到1的构建思路

一个比较成熟的画像系统,会有成千上百的标签,这些标签的生产不是一次完成的,而是随着业务的发展需要,逐步补充完善,最终呈现在大家眼前的就是一棵庞大的标签树。

跟自然界的树木一样,要想长得茁壮参天,必须有一个稳定的根基和合理的结构,用户画像的构建也是一样的,前期最重要的仍然是搭好画像骨架,确保后续的发展过程中,依然保持清晰的结构和高延展性。相反的,如果一开始为了抢时间,将大量标签无序的堆在线上,后期管理和使用的难度会迅速凸显出来,重构的代价巨大。

上面说到,一个好的标签树结构要满足两个条件,“高概括性”和“强延展性”,高概括性意味着结构体系能够很好的包含一个用户的基本属性和产品交互的相关行为,同时对于业务重点单独强调,没有遗漏;“强延展性”意味着结构全面的同时也有一定的抽象概括能力,保证新增的标签可以很好的找到对应的分类,整个体系不会过于收敛局限。

按照这个原则,画像通常从八个维度组织标签,分别为:基本属性、平台属性、行为属性、产品偏好、兴趣偏好、敏感度、消费属性、用户生命周期及用户价值。

下图所示为用户整体架构示例:

用户画像整体架构示例

① 基本属性

基本属性是指一个用户的基本社会属性和变更频率低的平台特征,例如真实社会年龄、性别、婚姻状况、昵称、号码、账号、lbs等标签。这些标签类型多为直采型,可从用户基本信息表中直接获取,不需要统计或者算法挖掘。

示例:社会性别_女

② 平台属性

平台属性是用户在平台上表现出的基本属性特征,是利用用户行为进行算法挖掘,标识用户真实属性的标签。

最典型的平台属性标签例如平台年龄标签,这里就有一个疑问,为什么在用户的基础属性中已经有年龄标签,但在平台属性中重复又有一个呢,这里就涉及两者之间的差别。设想一个真实的场景:一个用户社会身份为20岁,但他喜欢中年人的穿衣风格,在使用app购物的时候,表现出的真实偏好为30-40岁,对于这样使用产品时表现出的用户心智和真实年龄不相符合的用户,如果只采用上传的基本属性,给他推荐年轻人喜欢的物品,是不是很难命中个体用户的兴趣呢?

两种不同的标签,本质上是用户自己上传信息的随意性和挖掘信息的权威性差异,是用户社会属性和真实属性差异。

我们仔细分析一下两者在数据源、计算逻辑、标签格式、标签值和应用场景的差异,如下:

数据源与计算逻辑:基础属性是利用用户自行上传的存储在用户基础信息表里的数据,平台属性则利用客户端或者服务端埋点上报采集的用户行为数据进行挖掘计算生成。基本属性是典型的直采型标签,平台属性是典型的算法挖掘型标签。

末级标签和输出标签值:以性别为例,基本属性代表用户真实的社会身份,是确定的事实,所以典型标签形式为“性别_女”,而平台属性则代表用户在性别维度的偏好概率,所以典型形式为“性别_女_0.80”其中‘女’为末级标签,0.80则代表用户在平台的女性身份上表现出的倾向程度。

应用场景:平台属性通过用户行为进行挖掘,更能代表用户的真实倾向,输出结果比基本属性准确率高,在定向营销和算法里,年龄、性别等通常采用平台属性。而社会属性中电话、身份证、账号、昵称等使用较多。

③ 行为属性

行为属性记录的是用户的全部单点行为,用户的单点行为包括启动、登录、浏览、点击、加车、下单等非常多,而且跟不同的产品,不同的模块交互,不同的时间窗选取,行为就更加复杂了,如何能够全面的梳理,可以按照“产品*功能模块*用户单点行为*时间”四大要素来组织。

这里的“产品*功能模块*用户单点行为*时间”意思是一个完整的行为应该包含“哪个产品”“哪个功能模块”“哪个行为”“哪些时间要求”几要素,例如某浏览器体育频道距今最近一次访问时间。按照这几要素组织行为,不容易发生遗漏。

示例:产品初次登录时间,最后一次启动距今时间,30天内搜索行为频次,一个月内闪屏访问次数等。

④ 产品偏好

产品偏好是对用户使用某些产品、产品核心功能或者其他渠道的偏好程度的刻画,属于挖掘型标签,其中产品的选取可以包括自家产品、竞品;功能和渠道包括站内产品功能,也包括push、短信、开屏、弹窗等几大运营和产品法宝。

示例:搜索模块偏好、直接竞品_京东偏好、短信偏好。

⑤ 兴趣偏好

兴趣偏好是用户画像内非常重要的维度,以电商产品为例,用户对商品的喜爱程度是用户最终的信息之一,兴趣偏好就是对用户和物品之间的关系进行深度刻画的重要标签,其中最典型的要属品牌偏好、类目偏好和标签偏好。

示例:品牌偏好_优衣库_0.91类目偏好_美妆_0.80、标签偏好_红色_0.70。 

⑥ 敏感度

在营销活动时,我们留意到有些用户不需要优惠也会下单,而有些用户一定要通过优惠券刺激才会转化,优惠券的额度也影响了用户下单的金额,这种情况下,如何识别对优惠敏感的用户发放合理的券额的优惠券,保证优惠券不浪费,去报促销活动的ROI最大,其中一个很重要的标签就是用户的敏感度标签,敏感度代表用户对平台活动或者优惠的敏感程度,也是典型的挖掘类标签。

示例:热点敏感度、折扣敏感度。

⑦ 消费属性

无论是电商、内容或者其他领域,公司的目标最终都是收益,所以消费属性往往作为一个单独的维度重点刻画。消费属性包括统计型标签——消费频次、消费金额、最近一次消费时间等,也包括挖掘型标签——消费能力和消费意愿,同时包含敏感度标签——优惠促销敏感度、活动敏感度、新品敏感度、爆款敏感度等。

⑧ 用户生命周期及用户价值

用户生命周期是用户运营的重要法典,一个用户从进入产品到离开,通常会经历“新手”“成长”“成熟”“衰退”“流失”5个典型阶段,每个阶段对用户运营存在策略差异,画像在其中的作用是明确标记用户所处生命周期的阶段,便于后续业务同学落地。

用户价值是体现用户为产品贡献价值高低的标签,最经典的是RFM模型获得交易维度标签,与此同时,也应该看到用户的其它价值,例如为产品贡献活跃度,通过裂变拉来新用户,这些都可设计相应的标签。

示例:新手、成长、成熟、衰退、流失、高价值用户、VIP等级等。

2. 画像从1到100的构建思路

在前面一节,我们讨论了一个用户画像的基础框架应该如何搭建,这一节讨论一下,有了基础框架,到底应该如何着手一步一步完善画像标签树,如何从一个基于业务的需求落地为标签的设计,如何将标签应用到具体的业务中。

要解决“如何做”“如何用”两大问题,要从这个问题的根本入手思考,也就是我们为什么要做用户画像,用户画像的作用是什么,了解了这个问题,便能水到渠成的根据用途合理的设计方案。

用户画像的主要目的有三个,具体如下:

第一用于用户信息的统计,建立对产品对用户的基本认知;第二用于用户定向营销,利用人群圈选投放物料;第三用于算法,沉淀用户特征,供模型使用。所以标签的完善也可以按照这三个维度不断丰富,以下分别举例说明标签建设的思路。

① 用于统计,对产品对用户的基本认知

每个产品功能策略完善,都需要建立在对产品对用户的充分认知基础上,也就是说,用户是谁,有何特点,基本情况如何,这些是用户画像需要回答的重要问题。

思路拆解:既然要了解用户的基础信息,就需要将用户基本属性进行拆解:年龄、性别、居住城市(几线)、家庭结构(婚否、孩否)等。为了盈利考虑,还需要了解基本的收入水平、消费能力等。将拆解的维度抽象,构建对应标签,然后进行分布统计,便能生成一份基本的用户认知报告。

标签结果:年龄、性别等。

② 用于定向营销和精细化运营

运营同学作为画像的重要业务使用方,每天都会通过标签圈选人群,做定向的用户、活动、内容精细化运营,以及各app每天都在进行的促销活动。这些运营和活动的场景分布在产品的各个渠道和各个资源位,对场景和人群的惊喜程度要求都很高。

我们举例一个日常工作中最常见的需求:通过一次数据分析发现,产品的流失用户占比提升,通过讨论,大家认为通过一次结合利益点的push推送,召回流失用户,是有效且快速的手段,同时push作为各个业务都在争取的有限资源,希望可以提高使用效率,确保push这个资源渠道的整体ROI,以上需求希望画像可以支持。

思路拆解:从这个需求背景中,我们做一次关键词提取,不难发现,关键词如下是“流失用户”、“利益点”、“push”“效率”。其中流失用户是用户身分识别,利益点是用户优惠敏感度,push是产品渠道资源,效率意味着要尽可能的确保全选人群精准,不能为了覆盖率牺牲准确率。

思路拆解完毕,具体落地就变得简单多了,参考步骤如下:

第一步:需要流失用户的口径和标签,这里需要用到用户生命周期的划分,从中识别并标识出流失用户。

第二步:分析对流失用户拉回效果最好的利益点,例如优惠券、折扣、礼品或者是其他内容。这一步需要运营和数据同学根据日常经验和数据分析获得,对于画像的要求是基于分析结论,挖掘不同用户对于优惠折扣的敏感程度,这一部分在标签架构敏感度部分有论述,最终目的是确保每一分钱都能花在刀刃上。

第三步:确定拉回的明确目标,是拉回规模还是准确率,通过需求分析可以确定,本次拉回在资源有限的情况下,需要提升人群识别的准确率,画像实现准确率的方法有两条路径,一是提升画像算法的准确率,这部分主要依赖算法本身,无法一蹴而就,所以这里选择的方法是增加人群全选的条件,可就是新增标签,供圈选求交

根据背景分析,我们可以增加流失用户关于push渠道的打开意愿的标签,提高push资源的使用效率。

经过上述分析,需要生产的标签如下:

  • 用户生命周期_流失。

  • 用户折扣优惠敏感度。

  • push使用标签:这里可用统计型标签,例如push最近一次访问时间,在使用时设置条件为“最近3天,最近7天”;也可用综合的算法挖掘型标签,即push渠道偏好。

通过以上需求分析和思路拆解,画像的建设过程应该比较明确,这里再留一个思考的case,可以尝试如何分析如何落地:平台新上一款商品,初期需要在某模块展示给目标用户做推广,同时尽量不打扰其他非目标用户,不降低该资源位的整体转化效率。

思路拆解提示:商品的目标用户——商品可以按照哪些维度拆分关键信息?模块位置——用户的模块功能使用偏好是什么?准确率的要求——如何提升画像应用的准确率?

回答好以上问题,这个需求的标签便能顺利获得。

③ 用于算法,主要应用于搜索推荐、风控广告等策略方向,标签可以直接作为用户特征使用

标签除了用于基本的用户群体描述,定向营销和精细化运营,还有一个相对来说新颖又广泛的用途,用于各算法的各个环节,在召回和排序两大经典策略流程中,都可以用到用户画像,这里我们举例画像在推荐系统的召回层应用案例。

需求背景:推荐系统的本质是从海量信息中计算用户最感兴趣的部分,对应推荐系统的“召回-粗排-精排”,是一个“层层精选”的过程。其中召回层是精选的第一道流程,为后续计算打分准备初步的兴趣候选集,这里候选集的生成方法之一就是用户画像法。仍然以电商业务为例,讲述如何用用户画像做兴趣召回。

思路拆解:召回的作用是粗筛,帮助推荐系统计算第一道用户兴趣池,这里用户对物品的兴趣兴趣可拆解为对商品品牌、类目和商品标签的兴趣,这部分就已经转化为上述文章中的已知内容,用户标签中是有品牌偏好标签、类目偏好标签和标签偏好标签的,只需要在所有品牌、类目、标签下维护一个按照商品质量或者热度倒叙的列表,这样只要获取到用户标识,边能从用户画像中获取偏好的品牌、类目和标签,再从品牌、类目和标签下的商品列表中召回相应的商品,根据候选集大小的设计,做top k截断召回。这部分商品完成了初步的召回,为进入下一个流程进行粗排和精排做准备。

以上章节,选自:《数据产品经理:实战进阶》


我的朋友圈更精彩


推荐阅读

(点击标题可跳转阅读)

数学系的概率论和我们的不太一样。。。

数学家莱布尼茨:一个千古绝伦的大智者

机器学习论文清单:GitHub 2300+星
机器学习模型调参指南(附代码)

老铁,三连支持一下,好吗?↓↓↓

浏览 46
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报