《文章推荐系统》系列文章笔记

时间:2020-04-01 00:31:15   收藏:0   阅读:114

架构图

技术分享图片

要点

1. 推荐流程设计

解决信息过载问题

召回

排序

调整

2. 同步业务数据

为避免推荐系统的数据读写、计算对业务系统的影响,推荐系统的数据库和业务系统的数据库通常是分离的。

graph LR
用户数据&物品数据-Mysql-->HDFS-Hive

crontab 定时更新

3. 收集用户行为数据

业务系统-->日志数据-->Flume监听-->Kafka用于离线计算

                -->HDFS-Hive用于在线计算

4. 构建离线文章画像

技术分享图片

5. 计算文章相似度

5.1 构建文章画像

5.2. 计算文章相似度

6. 构建离线用户画像

6.1. Hive用户行为数据处理

6.2. 根据用户产生行为的文章的主题词按照不同的权重及时间衰减计算用户画像,存储Hbase。

6.3. 定时更新

7. 构建离线文章特征和用户特征

7.1. 根据关键词及其权重、主题词、文章频道、文章向量等文章画像构造特征

7.2. 根据用户信息表中信息及6中构建的用户画像构建用户特征

7.3. 定时更新

8. 基于模型的离线召回:ALS

8.1. 利用交替最小二乘法(ALS)将用户-物品矩阵做矩阵分解,分别得出用户矩阵和物品矩阵。

8.2. 根据用户矩阵和物品矩阵,可计算指定用户对所有物品的感兴得分。

8.3. 根据8.2中的兴趣得分进行排序获得召回集,将召回结果存储于Hbase。

8.4. 定时更新

9. 基于内容的离线及在线召回

9.1. 离线召回

9.2. 在线召回

10. 基于热门文章和新文章的在线召回

11. 基于 LR 模型的离线排序

11.1. 离线模型的评估

推荐系统CTR模型评估
推荐系统广度评估指标
推荐系统健康评估指标

11.2. LR模型

12. 基于 FTRL 的在线排序

13. 基于 Wide&Deep Model 的在线排序

模型结构
技术分享图片

Wide

Deep

14. 推荐中心

14.1. 推荐接口设计

14.2. ABtest 流量切分

14.3. 推荐中心逻辑

参考

1、系列文章地址

原文:https://www.cnblogs.com/Fosen/p/12609404.html

评论(0
© 2014 bubuko.com 版权所有 - 联系我们:wmxa8@hotmail.com
打开技术之扣,分享程序人生!