卓居超,2013年加入腾讯内部搜索部门,现负责腾讯应用宝搜索项目。近年来从事的科研工作集中在垂直领域的搜索、推荐技术研究。2015年代表腾讯公司在 WSDM 会议上做题为 “Semantic Matching in APP Search” 的主题报告,介绍腾讯应用宝语义搜索的技术实现。
今天他在公司做了一场关于腾讯应用宝的分享,这是一篇讲座笔记。
应用宝 – 腾讯的安卓应用市场
- 搜索是重要入口(新应用的分发)
- app 快速的增长 一年增长几百万
- 二八原则 长尾大 0.1%的应用 80%的分发
指标
- Downloads
- QV
- UV
- CTR (Click-Through-Rate)
- ROP (Rate-Of-Penetration)
CTR(Click-Through-Rate): 网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的点击量(严格的来说,可以是到达目标页面的数量)除以广告的浏览量(PV- Page View)。
语义计算策略
数据特征
- 数据量少 审核通过的应用数量只有数十万
- 文本信息少 附带文本信息少
这就意味着能建索引的量少 –> 所以要将信息泛化
应对策略
搜索+推荐
用 词、主题、标签 来描述语义 (query –> term + topic + tag –> app)
数据补充
爬取全网资源
- 游戏站点、用户评价
- 知识库:百度百科、百度知道
- 其他应用商店
- 搜索引擎 解析
- 应用宝用户行为
容易出现的问题是噪音会很大,所以需要机器学习的方法进一步的过滤
过程就是 页面抓取 –> 内容抓取 –> 知识挖掘 –> 标签 + 句法模板 + 标签集合 + 标签关联 –> 标签关联净化 –> 标签索引
数据挖掘
利用用户行为来指导排序
- 点击下载因子。赋予大的权重(增强鲁棒性)
- entropy因子。entropy可以表示用户query的集中程度,,点击散,entropy高,区分精准query和模糊query
主题模型
LDA 聚类,对 topic 进行人工标注,把 app 映射到 topic
LDA 在业界用法比较多。然而它最大的特点是需要大量的语料,语料少效果就不好。所以需要补充大量文本数据。
标签挖掘
- 元搜方式挖掘 tag (通过搜app)
- 根据用户行为、画像挖掘 tag
对用户进行分群 地区/年龄/职业/性别等 生成代表用户属性的标签给app
元搜,上大学的时候还学过来着,居然听讲座的时候没想起来😳
元搜索引擎又称多搜索引擎,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。(搜索引擎分类:全文搜索引擎、目录索引、元搜索引擎)
数据清洗
方法:机器学习模型计算 confidence level
human editor + web data + qa (lda) user group tags –> GBDT mode
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。
app 语义画像
语义描述体系
分多个维度
机器学习(LTR)
挑战:多来源检索结果不可比(类别/tag)
利器:lambdaMART 排序模型(GBRT的变种)
LTR - Learning to rank:学习排序
用机器学习的方法进行排序,可用于相关性排序、推荐引擎等系统中。Learning to rank or machine-learned ranking (MLR) is a type of supervised or semi-supervised machine learning problem in which the goal is to automatically construct a ranking model from training data.
应用宝搜索商业化
分发升级
应用+
应用分发 –> 内容服务分发
- 意图识别优化:什么时候出应用,什么时候出音乐,热度
- 多来源混排:机器学习+运营系统优化异构排序,促进分发效率(应用、音乐等怎么混排)
- 多场景引导:在热词、直达区(搜索补充呈现)、联想词等场景引导用户,培养内容搜索习惯
应用搜索广告
技术核心
app 画像
基于标签、主题、类别的 app 细粒度商业词动态混排
根据 query 动态选择广告槽位
利用相似应用打tag(confidence level –> filter)
机器学习的本质
已知数据 先验知识(专家系统) 未知数据的特征 –> 求未知数据的优化分布
通用技术难点:空间搜索 函数泛化
实际工作:
- 模型10% 其他90%
- 数据从哪来
- 特征如何抽取
- 领域先验知识
大量噪音?维数灾难?
L0,L1,L2正则化 剪枝
琐碎的准备工作很重要
L0正则化的值是模型参数中非零参数的个数。
L1正则化表示各个参数绝对值之和。
L2正则化标识各个参数的平方的和的开方值。
大公司 vs 小公司
大公司
搜索 推荐 广告 都能接触到,可以和牛人接触
流程化 冗余 很多团队想做一件事
小公司
方向更对
不被商业价值束缚 不被同伴利益束缚 不被自己经验束缚跑的更快
不被用户束缚 不被流程束缚 不被一般道德束缚
复利效应
应用宝光是去噪就做了一年。
每天积累一点 –> 复利效应 –> 无法超越
腾讯去做搜索,做不过百度,为什么?技术团队不强?no!因为百度做了几十年的搜索,每天进步一点,复利效应无法超越。
我们要找到可以产生复利效应的点。算法是数学专家的事,我们可以做的是应用方面的复利效应,比如说聊天机器人。