推荐序三

推荐技术是目前互联网行业最核心的技术之一,直接影响和决定了用户在应用上的体验和行为,在用户增长、时长和留存及广告营收上均扮演了“临门一脚”的角色。大量互联网的赢利都可以归纳为“用户时长”乘以“时长转化率”的模式,而“用户时长”通常由推荐内容的质量决定,同时“时长转化率”通常由推荐广告(或者其他赢利性内容)的质量决定。对于大体量的互联网公司,往往万分位上的提升就能给公司带来不菲的商业价值。推荐技术作为核心技术的重要性由此可见一斑,所以国内外知名的互联网公司Google、Meta、Amazon、Microsoft、百度、阿里巴巴、腾讯、抖音/TikTok、快手、美团、拼多多等都投入了多个几百上千工程师的研发团队。

作为互联网行业炙手可热的领域,推荐领域见证了现代互联网的发展和技术革命,最先进的硬件和算法上的突破都会优先被应用到这个领域。因此推荐领域自然也成为与前沿研究和工业落地最为贴合的领域。

随着网络从2G、3G、4G到5G的一代代升级,用户的应用程序和用户的推荐模式也随之一代代升级,从网页文本类推荐到视频推荐,推荐的形态也从原来的被动推荐(由用户发起,比如搜索)到目前的主动推荐(由平台发起)。推荐的触发频次也从原来的每人每天几次到现在的几百次,如抖音、快手这类基于主动推荐的国内短视频应用每天收到的请求数甚至可以比肩Google这样全球性的产品。因此推荐要解决的问题的复杂性也急剧增加,主要目标从原来只需要优化少数几个用户行为的预测精度到优化几十个;从只优化用户体验到同时优化平台、用户和内容生产者三方的利益平衡和生态平衡;从主要优化用户短期的收益到优化用户的长期体验(比如用户留存)。

为了应对这样的挑战,除了硬件不断升级,推荐算法软件系统也在不断升级。在硬件上正在完成训练和推理从CPU到GPU的全面升级,算法系统从最早的CPU时代的基于规则的推荐系统,到后来的逻辑回归,再到现在以GPU为依托的深度学习模型的全面转型,随之而来的参数规模也从过去的几亿增长到现在的十万亿规模(远大于GPT系列的模型规模),用于推荐的计算资源在互联网公司往往占比最高,很多公司最先进的GPU都优先支持推荐业务。推荐模型不仅考虑用户整体的预测精度,同时还对特殊的用户群体(比如新用户、年轻用户)做定制化的优化。推荐的优化目标从点的优化拓展到考虑序列的优化。推荐的作用空间从服务端延伸到用户手机端。除了深度学习技术,很多最前沿的研究经过定制化的设计也被用于推进推荐系统,比如通过强化学习优化用户的长期体验和优化推荐序列上的综合体验;模型压缩这类还处于研究阶段的技术也被应用到推荐场景中平衡模型的精度和计算成本;隐私计算技术也被应用到用户数据的跨平台使用和手机端推荐技术中。

推荐技术的发展一直伴随和推动着互联网时代的洪流和科技发展的洪流,滚滚向前、奔流不止。毫不夸张地讲,推荐系统的演化和发展是整个互联网行业产品形态升级和最新的科技创新的时代投影。一方面,推荐领域是互联网行业最受追捧的技术领域——用当下的话来说,是一个比较“卷”的行业;另一方面,它也是相对“亲民”的一个领域,初学者只需要基础的数理知识和编程能力就能上手(曾经我团队的一个没有推荐背景的硕士刚入职不到一年就贡献了公司3%的广告营收增长),同时它也是一个颇有技术深度的领域,很多前沿的技术需要深度定制化才能真正产生收益,甚至需要研发全新的算法工具才能实现。最后它也是一个不断演进和推陈出新的行业,每一个从业者都需要不断地学习和摸索,所谓的“经验”在这个行业很容易被淘汰。

致辰(水哥)在2020年加入我在快手时的团队做推荐,虽然他以计算机视觉背景投身到推荐领域,但是在很短时间内他熟悉、精通,并且升华了推荐技术,做到了行业的技术前沿。他在快手时主导研发的POSO用户冷启动模型在内部多产品上取得突破性的收益,其效果甚至受到了“竞争对手”抖音的背书,据我所知,诸如Meta这样的国际互联网公司也正在以POSO为原型探索冷启动模型。

致辰是一个非常善于总结和思考的人,这本书记录了他从计算机视觉背景逐渐成长为推荐系统专家的学习和心路历程。这本书从实践出发,比较全面地涵盖了最近几年前沿的推荐技术的发展,深入浅出,兼顾了前沿性、实用性和严谨性,是不可多得的推荐领域入门教材。即便对像我这样具备一定从业经验的人来说,在读到很多章节时也受益匪浅。

最后希望这本书能够为大家顺利打开进入推荐行业的大门。

——Meta Principal Scientist|刘霁

2023年3月20日深夜于西雅图Yarrow湾南岸