主要介绍推荐系统分析框架、应用场景以及评测方法等。

之前做了个项目 App Recommender System，以为对推荐系统也了解了不少，结果在面试的时候第一次被问到时才发现之前做的并没能没有考虑到商业场景，委实太过于小打小闹。所谓知耻而后勇，就开了这个坑，打算系统学习下 Recommender System 这门课。

以一本通俗入门的书《推荐系统实践》by 项亮开始，以 University of Minnesota 的专项系列课程 Master Recommender Systems 为辅，来学习这个 topic。这一系列笔记仅供学习使用，文字/理念/图片均有可能来自以上两个来源。

概念

需要区分的是 信息检索(Information Retrieval) 和 信息过滤(Information Filtering) 两个概念。

信息检索 针对的是 static content base + dynamic information need，通常使用的方法是 tfidf。信息过滤 则相反，针对的是 static information need + dynamic content base，主要的方法是对用户需求建模。推荐系统其实就是信息过滤的应用。搜索引擎需要用户主动提供准确的关键词来寻找信息，而推荐系统不需要这种明确需求，直接通过用户的历史行为给用户的兴趣建模，从而主动给用户推荐能满足用户兴趣和需求的信息，提高网站的点击率和转化率。

另外，推荐系统可以帮助发现物品的“长尾”。事实上，主流商品代表大多数用户的需求，而长尾商品则代表着小部分用户的个性化需求，后者才是更为重要的。以电商为例，如果只推荐主流产品，那么会产生大量长尾商品的库存积压，用户也不会感到惊喜或者满意。

推荐系统的三个主要组成部分：

前台展示页面
后台日志系统
推荐算法

推荐系统的三个参与方：

用户
物品提供者
提供推荐系统的网站

看一下推荐系统分析框架的 8 要素。

domain(推荐领域）
如已经购买过的东西
purpose（推荐目的）
如让用户再次购买；add-on sales
context（推荐背景）
推荐活动发生的一些情况和限制。如随意浏览或者是为了购买某件商品而浏览
whose opinions（推荐者）
如用户的购买记录；其它购物者
personalization level（个性化或定制化层次）
1. Non-personalized recommend，像微博里列出的最热门的新闻、事件。它并不关注你是否对此感兴趣。
2. 基于统计的有目标群体的推荐 Demographic，就好像买尿布的外国奶爸们顺手买的酒。
3. 只针对你当前活动而作出的推荐 Ephemeral，标准格式“喜欢这个X的人们也喜欢……”。
4. 分析长期记录得到的推荐 Consistent，如根据你的以往的消费记录，给你推荐一些物品。
privacy and trustworthiness（隐私性和可信度）
1. 隐私性。这是不是我们希望网站拥有的数据
2. 可信度。考虑会不会有内在的偏见，会不会有恶意的、非真实的操作等。
interface（接口）
考虑输入输出。
1. 输入分为 Explicit（Rating， Review， Vote， etc.）和 Implicit (Click， Purchase， Follow， etc.)
2. 输出分为预测和推荐两种，预测是得到一个特定的评分结果，推荐是得到一堆推荐的事物。
algorithms（推荐算法）
如 profitable products；product association

推荐系统评测

一个完整的推荐系统一般存在 3 个参与方：用户、物品提供者和提供推荐系统的网站。

因此在评测一个推荐算法时，需要同时考虑三方的利益，一个好的推荐系统是能够令三方共赢的系统。以图书推荐为例，好的推荐系统需要：

需要满足用户的需求，给用户推荐那些令他们感兴趣的图书。
要让各出版社的书都能够被推荐给对其感兴趣的用户，而不是只推荐几个大型出版社的书。
能够让推荐系统本身收集到高质量的用户反馈，不断完善推荐的质量，增加用户和网站的交互，提高网站的收入。

评测指标

用户满意度

只能通过用户调查或者在线实验获得。

用户调查

GroupLens 曾经做过一个论文推荐系统的调查问卷，该问卷的调查问题是请问下面哪句话最能描述你看到推荐结果后的感受

推荐的论文都是我非常想看的。
推荐的论文很多我都看过了，确实是符合我兴趣的不错论文。
推荐的论文和我的研究兴趣是相关的，但我并不喜欢。
不知道为什么会推荐这些论文，它们和我的兴趣丝毫没有关系。

在线实验

主要通过一些对用户行为的统计得到。如利用购买率、点击率、用户停留时间和转化率等指标度量用户的满意度。

预测准确度

最重要的离线评测指标。在计算该指标时需要有一个离线的数据集，该数据集包含用户的历史行为记录。然后，将该数据集通过时间分成训练集和测试集。最后，通过在训练集上建立用户的行为和兴趣模型预测用户在测试集上的行为，并计算预测行为和测试集上实际行为的重合度作为预测准确度。

评分预测

很多提供推荐服务的网站都有一个让用户给物品打分的功能(如知道了用户对物品的历史评分，就可以从中习得用户的兴趣模型，并预测该用户在将来看到一个所示)。那么，如果他没有评过分的物品时，会给这个物品评多少分。预测用户对物品评分的行为称为评分预测。

评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。对于测试集中的一个用户 u 和物品 i，令 $r_{ui}$ 是用户 u 对 u 物品 i 的实际评分，而 $\hat r_{ui}$ 是推荐算法给出的预测评分，那么 RMSE 为

MAE 采用绝对值计算预测误差：

代码也非常简单

def RMSE(records):
    return math.sqrt(sum[(rui=pui)**2 for u, i, rui, pui in records]) / float(len(records))
def MAE(records):
    return sum([abs(rui - pui) for u, i, rui, pui in records]) / float(len(records))

Netflix认为RMSE加大了对预测不准的用户物品评分的惩罚(平方项的惩罚)，因而对系统的评测更加苛刻。研究表明，如果评分系统是基于整数建立的(即用户给的评分都是整数)，那么对预测结果取整会降低MAE的误差。

TopN 推荐

TopN 推荐其实更符合实际需求。以电影为例，评分预测预测的其实是用户看了电影后会给什么样的评分，而电影推荐的目的是找到用户最可能感兴趣的电影，这两者当然不是一个概念。也许有一部历史片／文艺片非常好，用户看了会给非常高的分数，但是用户看的可能性非常小，可能用户就喜欢爱情片／脑残片呢。

覆盖率

覆盖率(coverage)描述一个推荐系统对物品长尾的发掘能力。覆盖率有不同的定义方法，最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为 U，推荐系统给每个用户推荐一个长度为 N 的物品列表 R(u)，那么推荐系统的覆盖率就是

覆盖率是一个内容提供商会关心的指标。以图书推荐为例，出版社可能会很关心他们的书有没有被推荐给用户。覆盖率为100%的推荐系统可以将每个物品都推荐给至少一个用户。此外，从上面的定义也可以看到，热门排行榜的推荐覆盖率是很低的，它只会推荐那些热门的物品，这些物品在总物品中占的比例很小。一个好的推荐系统不仅需要有比较高的用户满意度，也要有较高的覆盖率。

考虑研究物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力，可以用信息熵或者基尼系数。
信息熵:

$H=-\sum_{i=1}^np(i) \ logp(i)$

(p(i) 是物品 i 的流行度除以所有物品流行度之和。)

是基尼系数（Gini Index）:

$G={1 \over n-1}\sum_{j=1}^n(2j-n-1)p(i_j)$

($i_j$ 是按照物品流行度p()从小到大排序的物品列表中第j个物品。)

下面的代码可以用来计算给定物品流行度分布后的基尼系数。

def GiniIndex(p):
    j = 1
    n = len(p)
    G = 0
    for item, weight in sorted(p.items(), key=itemgetter(1)):
        G += (2 * j - n - 1) * weight
    return G / float(n - 1)

如果这个分布比较平，那么说明推荐系统的覆盖率较高，推荐系统发掘长尾的能力就很好。而如果这个分布较陡峭，说明推荐系统的覆盖率较低。

推荐系统是否有马太效应呢?
推荐系统的初衷是希望消除马太效应，使得各种物品都能被展示给对它们感兴趣的某一类人群。但是，很多研究表明现在主流的推荐算法(比如协同过滤算法)是具有马太效应的。评测推荐系统是否具有马太效应的简单办法就是使用基尼系数。如果 G1 是从初始用户行为中计算出的物品流行度的基尼系数，G2 是从推荐列表中计算出的物品流行度的基尼系数，那么如果G2 > G1，就说明推荐算法具有马太效应。

多样性

用户的兴趣是广泛的，为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同的兴趣领域，即推荐结果需要具有多样性。多样性描述的是推荐列表中物品两两之间的不相似性。因此，多样性和相似性是对应的。假设 s(i， j)定义了物品 i 和 j 之间的相似度，那么用户 u 的推荐列表 R(u) 的多样性定义如下:

新颖性

新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是，把那些用户之前在网站中对其有过行为的物品从推荐列表中过滤掉。比如在一个视频网站中，新颖的推荐不应该给用户推荐那些他们已经看过、打过分或者浏览过的视频。

评测新颖度的最简单方法是利用推荐结果的平均流行度，因为越不热门的物品越可能让用户觉得新颖。因此，如果推荐结果中物品的平均热门程度较低，那么推荐结果就可能有比较高的新颖性。但是，用推荐结果的平均流行度度量新颖性比较粗略，因为不同用户不知道的东西是不同的。因此，要准确地统计新颖性需要做用户调查。

惊喜度

惊喜度(serendipity)是最近这几年推荐系统领域最热门的话题。如果推荐结果和用户的历史兴趣不相似，但却让用户觉得满意，那么就可以说推荐结果的惊喜度很高，而推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。

目前并没有什么公认的惊喜度指标定义方式，这里只给出一种定性的度量方式。上面提到，令用户惊喜的推荐结果是和用户历史上喜欢的物品不相似，但用户却觉得满意的推荐。那么，定义惊喜度需要首先定义推荐结果和用户历史上喜欢的物品的相似度，其次需要定义用户对推荐结果的满意度。

信任度

如果你有两个朋友，一个人你很信任，一个人经常满嘴跑火车，那么如果你信任的朋友推荐你去某个地方旅游，你很有可能听从他的推荐，但如果是那位满嘴跑火车的朋友推荐你去同样的地方旅游，你很有可能不去。这两个人可以看做两个推荐系统，尽管他们的推荐结果相同，但用户却可能产生不同的反应，这就是因为用户对他们有不同的信任度。

度量推荐系统的信任度只能通过问卷调查的方式，询问用户是否信任推荐系统的推荐结果。

提高推荐系统的信任度主要有两种方法。

增加推荐系统的透明度(transparency)
增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制，让用户认同推荐系统的运行机制，才会提高用户对推荐系统的信任度。
考虑用户的社交网络信息
利用用户的好友信息给用户做推荐，并且用好友进行推荐解释。因为用户对他们的好友一般都比较信任，因此如果推荐的商品是好友购买过的，那么他们对推荐结果就会相对比较信任。

实时性

在很多网站中，因为物品(新闻、微博等)具有很强的时效性，所以需要在物品还具有时效性时就将它们推荐给用户。

推荐系统的实时性包括两个方面。

推荐系统需要实时地更新推荐列表来满足用户新的行为变化。比如，当一个用户购买了iPhone，如果推荐系统能够立即给他推荐相关配件，那么肯定比第二天再给用户推荐相关配件更有价值。很多推荐系统都会在离线状态每天计算一次用户推荐列表，然后于在线期间将推荐列表展示给用户。这种设计显然是无法满足实时性的。与用户行为相应的实时性，可以通过推荐列表的变化速率来评测。如果推荐列表在用户有行为后变化不大，或者没有变化，说明推荐系统的实时性不高。
推荐系统需要能够将新加入系统的物品推荐给用户。这主要考验了推荐系统处理物品冷启动的能力。对于新物品推荐能力，我们可以利用用户推荐列表中有多大比例的物品是当天新加的来评测。

健壮性

健壮性(即robust，鲁棒性)指标衡量了一个推荐系统抗击作弊的能力。

算法健壮性的评测主要利用模拟攻击。

给定一个数据集和一个算法，用这个算法给这个数据集中的用户生成推荐列表。
用常用的攻击方法向数据集中注入噪声数据，然后利用算法在注入噪声后的数据集上再次给用户生成推荐列表。
通过比较攻击前后推荐列表的相似度评测算法的健壮性。
如果攻击后的推荐列表相对于攻击前没有发生大的变化，就说明算法比较健壮。

在实际系统中，提高系统的健壮性，除了选择健壮性高的算法，还有以下方法。

设计推荐系统时尽量使用代价比较高的用户行为。比如，如果有用户购买行为和用户浏览行为，那么主要应该使用用户购买行为，因为购买需要付费，所以攻击购买行为的代价远远大于攻击浏览行为。
在使用数据前，进行攻击检测，从而对数据进行清理。

小结

离线实验的优化目标是:
最大化预测准确度使得覆盖率 > A，多样性 > B，新颖性 > C，其中，A、B、C的取值应该视不同的应用而定。

这些指标本身就是相互矛盾的，还有一种统一的方法可能是 AUC(area under curve):

评测维度

一般来说，评测维度分为如下3种。

用户维度
主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
物品维度
包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
时间维度
包括季节，是工作日还是周末，是白天还是晚上等。

推荐系统--开坑

概念

推荐系统的应用

电子商务

电影和视频网站

个性化音乐网络电台

社交网络

个性化阅读

基于位置的服务

个性化邮件

个性化广告

推荐系统评测

推荐系统实验方法

离线实验（offline experiment）

用户调查（user study）

在线实验（online experiment）