推荐系统:前沿与实践
作者简介
李东胜,博士,微软亚洲研究院(上海)高级研究经理,复旦大学计算机学院客座教授、兼职博导,中国计算机学会协同计算专业委员会委员。主要研究方向为机器学习理论及应用,尤其是推荐算法的准确性、泛化能力、可扩展性、安全与隐私等。近年来,在PNAS、Nature Cardiovascular Research、ICML、NIPS、ICLR、SIGIR、WWW、KDD等相关领域的会议和期刊上发表论文80余篇。长期担任ICML、NIPS、ICLR、KDD、AAAI、IJCAI、CIKM等学术会议的程序委员。曾任IBM中国研究院高级研究员,于2016―2019年连续4年获得IBM杰出技术成就奖,开发的认知推荐引擎在2018年获得IBM最高奖――IBM Corporate Award。练建勋,博士,毕业于中国科学技术大学,现任微软亚洲研究院主管研究员。研究方向主要包括推荐系统、用户建模与深度学习相关技术。在KDD、IJCAI、WWW、SIGIR等多个国际顶级会议上发表了多篇论文,相关的研究成果应用在必应广告、Xbox游戏和微软新闻等多个推荐场景上,获得了显著的提升效果。张 乐,博士,人工智能架构师/总监,主导面向金融应用的人工智能和机器学习平台开发。曾任微软高级数据科学家,负责开发应用于零售、媒体和娱乐行业的工业级推荐系统在Azure云平台上的产品和解决方案。在人工智能及数据科学在多个行业的应用项目中担任主要开发和技术负责人。开源项目Microsoft Recommenders的主要参与者之一。曾在KDD、ICDM、WWW等多个人工智能学术会议上发表论文及演讲。本科毕业于哈尔滨工业大学,在新加坡南洋理工大学获得博士学位,曾在美国普渡大学交流访问。任 侃,博士,现就职于微软亚洲研究院并担任高级研究员。主要研究领域包括数据挖掘与机器学习,特别是时空数据挖掘、序列建模与决策优化方法,及其在推荐系统、医疗健康与金融等领域的应用。在数据挖掘与机器学习领域顶级会议和期刊上发表了20余篇论文,包括TKDE、KDD、SIGIR、AAAI、ICLR、ICDM、WSDM、CIKM等。在浙江大学获得计算机科学与技术工学学士学位,在上海交通大学获得计算机科学与技术博士学位,并获得上海交通大学优秀博士学位论文提名。卢 暾,博士,复旦大学计算机科学技术学院教授,博士生导师,美国卡耐基梅隆大学(CMU)访问学者。现任中国计算机学会(CCF)协同计算专委秘书长、大数据专家委员会通讯委员、高级会员。长期从事CSCW与社会计算、协同计算、推荐系统与人机交互等方面的研究。作为项目负责人承担多项国家自然科学基金项目、科技部重点研发计划课题、863课题和上海市项目。研究成果发表在CSCW、CHI、UbiComp、NIPS、WWW、SIGIR、IEEE TKDE等领域权威会议和期刊上。多次担任CSCW、CHI等的AC,多个国内外学术会议的PC Co-Chair,以及多个国内外学术期刊的AE和GE。邬 涛,博士,微软Azure Gaming Services部门数据科学主管。其团队专注于人工智能技术在游戏开发、内容创作和运营中的应用。领导开发的Microsoft Recommenders开源项目是GitHub上最受欢迎的推荐系统项目。在微软、诺基亚研究中心和麻省理工学院计算机科学与人工智能实验室(CSAIL)长期负责研发和团队管理工作。谢 幸,博士,微软亚洲研究院首席研究员,中国科学技术大学兼职博士生导师,微软-中科大联合实验室主任,中国计算机学会普适计算专委会副主任。其团队在数据挖掘、社会计算和普适计算等领域展开研究,在国际会议和学术期刊上发表了300余篇学术论文,共被引用4万余次。他是中国计算机学会会士、IEEE会士、ACM杰出会员。
内容简介
推荐序 推荐系统:信息海洋中的导航者 2020 年,全球数据总存储量超过了40ZB,预计在2025 到2026 年,这个数字会达到200ZB。面对如此巨量的数据,大数据时代面对的第一个挑战就是如何解决信息过载的问题,即如何帮助用户在信息的海洋中找到他们需要或者喜欢的内容。我们见识过不同类型的“信息中介”,导航网站(如hao123)、门户网站(如搜狐新闻)、搜索引擎(如百度)……还有本书要介绍的推荐系统。读者可能会觉得搜索引擎在信息获取方面扮演了最重要的角色,然而实际上,绝大部分我们被动获取或者看似主动却实际被动获取的信息都来自推荐系统,这些信息占据了我们从互联网中获取信息的最大份额。举个例子,尽管我们有时会在抖音、快手和小红书上浏览关注对象的视频,但是大部分时候,当我们滑屏之后,新的视频都来自推荐系统。我们可能以为自己观看的长视频都来源于对我们兴趣的准确把握和对内容的主动定位,其实Netflix 上超过2/3 的点击来自推荐,爱奇艺超过1/2 的点击来自推荐。还有今日头条的新闻推荐、淘宝的商品推荐……我们一直被推荐系统紧紧包裹,只是这层包裹很柔软,我们往往并不自知。 读者手头的这本书,就是从理论、方法到实践,系统地介绍推荐系统这一信息海洋中最重要导航者的专著。这本书的作者是该领域蜚声国际的大学者。不得不说,针对推荐系统,已经有了很多高质量的综述论文和专著,它们各有特色。然而,大部分综述只集中于某类方法(例如Adomavicious 和Tuzhilin 主要聚焦于协同过滤,我们的综述主要聚焦于物理学的方法)或者只深入讨论某一个问题(例如Herlocker 等人的综述主要关注如何评价一个推荐系统)。Francesco Ricci 等人编写了Introduction to Recommender Systems Handbook一书,影响力很大,但这本书其实是若干专题性综述的汇编,没有在同一套语言和符号系统中由浅入深地展开叙事,因此只适合很专业的研究人员阅读。项亮撰写的《推荐系统实践》是从业者的入门和实战宝典,但理论方面的笔墨不多。与此同时,推荐系统自身的发展速度很快,原来以协同过滤、矩阵分解等为代表的单算法,已经无法应对现在的大规模推荐系统。事实上,在目前主流的推荐系统框架中,深度学习和特征工程已经扮演主角,原来不可一世的单算法(例如基于用户和基于商品的协同过滤)已经退化成前沿推荐系统框架中若干召回算法中不起眼的一员。所以,一些较完整的著作,距离推荐系统的前沿技术也比较远了。总的来说,本书是一本“来得恰到好处”的推荐系统著作,兼顾了理论性和实践性,包含了经典算法和前沿方法。 我和推荐系统有很深的缘分。2007 年,我到瑞士弗里堡大学读博士,张翼成教授与我合作的第一个题目就是推荐系统,后来推荐系统和链路预测成了支撑我博士论文的两个主要方向。回国后,我参与创立的第一家企业°最初的业务就是为电子商务网站开发推荐系统。我老婆有很长一段时间也从事推荐系统的实战工作,并作为主要负责人构建了爱奇艺的推荐系统。我和她有一段重要的共同经历,就是都曾在谢幸老师的指导下从事位置分析和推荐系统的工作。我和谢幸老师一共合作过四篇论文±,其中有三篇有关如何为用户推荐他(她)可能感兴趣的位置的,这也使我真正有机会系统地考虑如何推荐位置,以及一个相关的问题——如何利用位置信息推荐内容。 推荐系统尽管已经历了近三十年的发展,但该领域的研究依然充满活力。这在很大程度上是因为推荐系统占据了我们获取的信息活动的很大比重,而获取信息又是现代人生活学习中特别重要的部分。除了刚才提到的深度学习框架的应用,最新的技术发展又提出了若干新的挑战,例如,如何在多媒体环境中更好地设计推荐系统(与目前流行的多模态学习密切相关),如何融入专家知识来构建具备“认知能力”的推荐系统,如何在隐私保护的前提下设计推荐系统,等等。在大数据概念热火朝天时,美国网络安全和新兴技术局(CSET)发布报告,建议重新重视小数据下的人工智能应用。如何在稀疏和不充分数据条件下设计推荐系统,也是一个重大的挑战。其中,谢幸老师和他的同事们最近针对基于知识图谱的推荐系统的研究,为这个问题提出了一个可能的解决方案。我最近在推荐算法方面研究较少,又反过来关注推荐系统的伦理问题,例如,如何避免由于过度个性化让我们的视野变得狭窄,甚至陷入信息茧房中——这实际上是我博士阶段工作?的自然延续。可以说,推荐系统是一个将科学问题、技术问题和产业实践无缝结合的充满活力的领域。本书的作者们都是该领域全球范围的研究学者,且多数身在微软,因而对产业需求非常敏锐!希望各位读者都能从本书中有所得。 是为序。 周涛 电子科技大学教授 重温经典技术,推知前沿进展 详细阐述推荐系统基本原理、落地经验与前沿技术进展 深入浅出推荐系统的技术发展脉络 揭秘工业级推荐系统的构建方法