CMU 11642 的课程笔记。这一章开始的很多内容都是从论文的研究报告而来。重点是第四部分,怎样对 search log 划分 session,有哪些 feature 可以作为划分 session 的依据。
Search Engines笔记 - Authority Metrics
CMU 11642 的课程笔记。这一章 Authority Metrics(权威指数),用来判断哪些来源的信息更值得信任。介绍 PageRank、Topic-Sensitive PageRank(TSPR)、T-Fresh、Hyperlink-Induced Topic Search(HITS) 四种指数计算方式。
Distributed Systems笔记-Cryptographic Protocols
CMU 95702 Distributed Systems 笔记。简单介绍几种加密、签名方式。
Distributed Systems笔记-middlewares
CMU 95702 Distributed Systems 笔记。简单介绍分布式系统中解决 interoperability concern 的几种方案 Cobra’s CDR, Java serialization 和 XML/JSON。这章整理的比较简单。
Distributed Systems笔记-Web Service Design Patterns
CMU 95702 Distributed Systems 笔记。简单介绍 XML-RPC、SOAP、REST 三种 web 服务实现方案以及 RPC、Message、Resource 三种 patterns。
Search Engines笔记 - Learning to Rank
CMU 11642 的课程笔记。我们已经学习了很多检索方法,如果把这些方法结合起来,效果会不会更好呢?
项目实战--搜索引擎
CMU 11642 的 project。
Search Engines笔记 - Cache
Web traffic is highly skewed,我们可以通过缓存提高 performance。缓存内容可以是 query, result page, inverted list。
Search Engines笔记 - Index Construction
CMU 11642 的课程笔记。这篇讲了搜索引擎中创建索引的主要原则、方法以及优化方案。
Search Engines笔记 - Pseudo Relevance Feedback
CMU 11642 的课程笔记。怎样产生更好的 query 来得到更多的相关文档?从用户角度看,用户一开始会用 short query 来进行检索,在看到结果文档后通过增加或减少 term 以及调整 term weight 的方式进一步优化 query。而对系统而言,能自动产生更好的 query 的方式莫过于机器学习算法。