大厂海量视频推荐索引构建解决方案-技术圈

点击下方“ JavaEdge ”，选择“ 设为星标 ”

第一时间关注技术干货！ 关注我，紧跟本系列专栏文章，咱们下篇再续！

作者简介：魔都技术专家兼架构，多家大厂后端一线研发经验，各大技术社区头部专家博主，编程严选网创始人。具有丰富的引领团队经验，深厚业务架构和解决方案的积累。

负责：中央/分销预订系统性能优化；活动&优惠券等营销中台建设；交易平台及数据中台等架构和开发设计。

1 背景

需求：

新启用视频尽快触达用户
识新物品好坏，通过分发流量及后验数据，判断新物品是否值得继续分发

这就对索引先验数据、后验数据延迟都高要求。

先验数据：视频创建时就带有的数据如tag，作者账号id
后验数据：用户行为反馈的数据如曝光、点击、播放

2 视频推荐整体架构

视频由内容中心通过MQ给到，经处理入库、建索引、生成正排/倒排数据，在存储层可召回内容约1000w条
经召回层，通过用户画像、点击历史等特征召回出数千条视频，给到粗排层
粗排将这数千条视频打分，取数百条给到精排层
精排再打分，给到重排
重排根据规则和策略进行打散和干预，最终取10+条给到用户

视频在用户侧曝光后，从上到下：用户对视频的行为，如曝光、点击、播放、点赞、评论等经过上报至日志服务，然后通过实时/离线处理产生特征回到存储层。

需设计一套召回/倒排索引，以实时/近实时延迟来处理所有数据。

3 方案设计

旧方案索引每半小时定时构建，无法满足近实时。分析索引构建方案：

数据虽不要求强一致性，但需保证最终一致性
后验数据写入量极大
召回系统要求高并发、低延迟、高可用

3.1 方案调研

Redis灵活性差，直接用难，需多定制化开发，排除。

可选方案主要在自研或开源成熟方案：

自研索引开发成本较高
简单自研方案可能无法满足业务需求，完善的自研索引方案所需开发维护成本高

最终选择基于ES的索引服务。

3.2 数据链路

3.2.1 方案

先验数据链路，数据源主要来自内容中心，通过解析服务写入到CDB中。其中这个链路又分为全量链路和增量链路

全量链路主要是在重建索引时才需要的，触发次数少但也重要。它从DB这里dump数据，写入kafka，然后通过写入服务写入ES
增量链路是确保其实时性的链路，通过监听binlog，发送消息至kafka，写入服务消费kafka然后写入ES

后验数据链路。APP用户行为流水直接打入ES绝对扛不住。需聚合计算

用Flink做了1分钟滚动窗口聚合，然后把结果输到写模块，得到1分钟增量的后验数据。Redis存储近7天的后验数据，写模块消费到增量数据后，需要读出当天的数据，并于增量数据累加后写回Redis，并发送对应的rowkey和后验数据消息给到Kafka，再经由ES写入服务消费、写入ES索引。

3.2.2 数据一致性

① Redis写模块，需先读数据，累加后再写入

先读后写，需保证原子性，这里可能存在同时有其他线程在同一时间写入。

解决方案1 redis加锁；

解决方案2如图，MQ队列使用rowkey作为分区key，确保同一rowkey分配至同一分区，而同一只能由同一消费者消费，也就是同一rowkey由一个进程处理，再接着以rowkey作为分线程key，使用hash算法分线程，这样同一rowkey就在同一线程内处理，因此解决了此处的一致性问题。同一流内的一致性问题顺带解决。