推荐系统概述(1):推荐系统是干啥的?
作者简介
作者:水哥【清华大学 信息与通信工程硕士】
原文:https://zhuanlan.zhihu.com/p/384471991
转载者:杨夕
推荐系统 百面百搭地址:
https://github.com/km1994/RES-Interview-Notes
NLP 百面百搭地址:
https://github.com/km1994/NLP-Interview-Notes
个人笔记:
https://github.com/km1994/nlp_paper_study
前言
近几年,在算法工程师界,推荐系统(Recommender System)变的热门了起来。相比于落地比较困难的计算机视觉(Computer Vision)或是自然语言处理(Natural Language Processing),推荐系统背景的同学更受工业界的欢迎。主要是因为推荐可以直接产生价值,尤其像广告算法(我们把他和推荐系统暂且算成是一类)可以直接给公司带来收入。也基于此,周围有很多同学都在转向,或者正在转向推荐算法。
在这个专栏中,我们来聊推荐系统的各个方面,帮助大家入门。不仅仅限于算法或者模型,我们也会讨论策略,数据分析,产品设计等方面对整个推荐系统的影响。
那么我们正式开始
推荐系统是什么?
在介绍推荐系统之前,我们首先要给出推荐系统推荐的对象,即内容。我们可以做如下分类:
图文:是最容易产生,也是数量最多的内容。5G时代到来之前,图文一直是互联网内容的主流。早一点的像人人网是比较典型的,大家都是在上面发段子或者自己的心情状态。微博其实一直是图文,只是随着这几年环境的变化,越来越像一个吵架的地方了。虽然现在短视频很火,图文的需求也没有减少。像官方新闻,漫画作者,各种评测和小成本的自媒体还是选择图文作为生产的主战场。需要说明的是,图文也不排斥视频入口,像在下面产品的图中就有很多视频。
PGC,全称是Professionally-generated Content,它主要指的是由专业的生产者产出的内容。比如官方的账号发布的信息,是由专门的发言人把关的,就属于PGC。有的视频APP会推荐一些影视剧片段,不考虑版权的问题,应该也要算作PGC的范畴。
UGC,User-generated Content,它指的就是普通的生产者。每一个用户,拍了一段短视频并把它发布出来,都看一看做是UGC的领域。UGC和PGC的边界并不清晰,当一个普通的用户得到了很多关注,慢慢变成知名作者的时候,他的作品也就变成了PGC。
上图的分类更多的是按照我们目前常见的产品形态来分类的,比如手机百度,今日头条属于图文。PGC可以指代西瓜视频,爱奇艺这样的平台,UGC可以看作是快手,抖音。PGC,UGC的概念其实并不在视频下面,在图文的应用里面,这两类是混合在一起的。这里只是依据目前主流的产品形态来进行的划分。
接下来,我们从产品的角度,看看一个典型的推荐产品是什么样子的。下面是某APP的图文界面,我们以此为代表介绍所有的要素
我们可以把界面按功能分为几种要素:
内容区,最主体的区域,占据了页面绝大多数空间。我们在上面看到的部分可以称为预览区,当点击了文章内容就可以抵达详情页。常见的内容形式包括大图(标题在上,图片填满页面宽度),小图(标题在左侧,图片的高度和文本的高度一致)和组图(标题在上,三张图填满页面宽度)几种形式。
搜索入口:可以抵达搜索的入口,也可以跳转到某个时事专题上,一般到了这个入口从界面布局和推荐逻辑上就和网页的搜索没有太大区别了。
强插环节:和个性化没关系的一个区域,存在的理由可能是时事热点很重要,我党的重要政策方针等等
标签:一般会写上作者的名字,并且附带评论数或者播放数等等信息,有的时候也会被覆盖为”热点“,”活动“等字样。
广告区:严格意义上不算一个区,广告可以出现在任何内容可以出现的地方。上面的大图小图三图都可以被广告性质的内容所取代,点进去的详情页还可以出现广告。但是要注意的是,广告的密度一般有限,一个屏幕有四五条内容,一般广告就占据一条,这是为了不影响用的体验。另外,属于广告的,一定得打上”广告“的标签。
其实当我们分析了一下推荐系统的界面之后,我们就可以得到推荐系统的特点:在推荐系统中,用户(也可称为消费者)浏览作者(也可称为生产者)输出的内容。它其实是链接生产者和消费者的一个中间媒介。
生产者,在短视频上是发布视频的用户,他们的需求可能是想要更多的曝光;在携程/airbnb,可能是酒店民宿的店家,希望有更多的人光顾;在淘宝,是商铺,希望能卖出更多的货。
消费者就是用户了,在短视频平台可能只是为了找乐子;在淘宝或者携程则是目的明确的想要买东西或者住店。
推荐系统的作用
既然推荐系统是一个媒介,那么它都能有哪些作用,可以达到什么样的目的呢?
对于消费者而言,很明显就是把读者想看的东西给他。一个人喜欢看dota2的节奏,我们可以给他推各种主播的整活视频,那他一定会很喜欢看。当他想要买一部手机,我们可以根据他的喜好给他推荐性价比更高的那一款,那么既能达到他的目的,也很省事。
扶持生产者,让他们发挥更大的价值。像一些地区比如新疆,可以产出非常甜的水果,但是想要在东部市场有所作为,总不能拿着广告牌坐广告来吆喝吧。这个时候推荐系统如果能帮他们找到潜在的喜欢新疆水果的客户,就能很省事的增加果农的收入。淘宝的一大价值其实就是让很多的(尤其是江浙的)商品生产者富了起来。视频平台如果让小作者也有曝光度,也可以增进创作欲望。像papi酱这样的例子,即让自己红了起来,也拉动了更多用户来了解平台。
生产者这里有一个问题是所谓的长尾效应,即头部的作者能获得主要的曝光,而大多数作者都没什么曝光量,如下图
从推荐系统的角度来说,我们必须保证长尾的用户也得到一定的曝光。否则大部分的作者创作积极性被打压掉之后,平台会慢慢死掉。这个后面还会专门聊。
每一种推荐系统,根据实际业务的不同,消费者和生产者的比例有所不同。相应的,推荐系统的侧重点也有所不同,比如airbnb,消费者基本是刚需,所以这时候要考虑的是生产者的长尾效应,需要让一些不那么热门的房源得到展示。但是在短视频平台上,内容是足够丰富的,这时候让消费者觉得推荐的内容有意思,好玩,则更为重要。
除了对生产者消费者,对平台自己的好处是什么呢?对于平台来说,可能趁机卖广告才是本体(误)。平台光展示内容是不挣钱的,真正挣钱的方式是广告主去竞价一个广告的曝光。目前大多数广告的计费方式都是CPM(Cost Per Mille)或者oCPM(optimized Cost Per Mille),啥意思呢?就以CPM举例:CPM的方式是按照千次展现(Mille)来计费,比如你的出价是10元,当平台展示这个广告一千次(不考虑二价等因素)的时候就会收费10元。oCPM虽然考虑了按照转化来出价,但是还是按照曝光来收费,因此只要有广告出现在你的APP中,平台就获得了收入。除竞价广告之外,还有合约广告(如开屏广告等等)。
一开始,平台上没有广告,很干净。这个阶段平台的主要目的是拉取用户的兴趣,让更多的人进入,培养他们的粘性。到用户体量已经比较稳定,且不太容易流失的时候,就会开始插广告。但是为了用户体验,一般不会特别过分。当我们看到那些广告频率极其高的APP就要当心了。可能这些APP已经在走下坡路,准备最后疯狂恰一波烂钱了。
下期预告
推荐系统概述(2):推荐系统的天时地利人和