分布式爬虫的演习。
讲座笔记 -- 腾讯应用宝
卓居超,2013年加入腾讯内部搜索部门,现负责腾讯应用宝搜索项目。近年来从事的科研工作集中在垂直领域的搜索、推荐技术研究。2015年代表腾讯公司在 WSDM 会议上做题为 “Semantic Matching in APP Search” 的主题报告,介绍腾讯应用宝语义搜索的技术实现。
今天他在公司做了一场关于腾讯应用宝的分享,这是一篇讲座笔记。
爬虫总结(三)-- cloud scrapy
发现了一个比较好玩的东西,scrapinghub,试着玩了一下 cloud scrapy,因为就它是免费的。。最大优点是可以将爬虫可视化。这里就简单记录一下它怎么用。
爬虫总结(二)-- scrapy
用现成的框架的好处就是不用担心 cookie、retry、频率限制、多线程的事。这一篇把上一篇的实例用 scrapy 框架重新实现一遍。主要步骤就是新建项目 (Project) –> 定义目标(Items)–> 制作爬虫(Spider)–> 存储结果(Pipeline)
爬虫总结(一)-- 爬虫基础 & python实现
爬虫在平时也经常用,但一直没有系统的总结过,其实它涉及了许多的知识点。这一系列会理一遍这些知识点,不求详尽,只希望以点带面构建一个爬虫的知识框架。这一篇是概念性解释以及入门级爬虫介绍(以爬取网易新闻为例)。
gensim-doc2vec实战
gensim的doc2vec找不到多少资料,根据官方api探索性的做了些尝试。本文介绍了利用gensim的doc2vec来训练模型,infer新文档向量,infer相似度等方法,有一些不成熟的地方,后期会继续改进。
gensim - word2vec实战
介绍如何利用 gensim 库建立简单的 word2vec 模型。
word2vec详解之六 -- 若干源码细节
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
word2vec详解之五 -- 基于 Negative Sampling 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
word2vec详解之四 -- 基于Hierarchical Softmax 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。