爬虫总结(四)-- 分布式爬虫

Posted on 2016-06-17 | In NLP , Crawler |

分布式爬虫的演习。

讲座笔记 -- 腾讯应用宝

Posted on 2016-06-15 | In Others |

卓居超，2013年加入腾讯内部搜索部门，现负责腾讯应用宝搜索项目。近年来从事的科研工作集中在垂直领域的搜索、推荐技术研究。2015年代表腾讯公司在 WSDM 会议上做题为 “Semantic Matching in APP Search” 的主题报告，介绍腾讯应用宝语义搜索的技术实现。
今天他在公司做了一场关于腾讯应用宝的分享，这是一篇讲座笔记。

爬虫总结(三)-- cloud scrapy

Posted on 2016-06-15 | In NLP , Crawler |

发现了一个比较好玩的东西，scrapinghub，试着玩了一下 cloud scrapy，因为就它是免费的。。最大优点是可以将爬虫可视化。这里就简单记录一下它怎么用。

爬虫总结(二)-- scrapy

Posted on 2016-06-12 | In NLP , Crawler |

用现成的框架的好处就是不用担心 cookie、retry、频率限制、多线程的事。这一篇把上一篇的实例用 scrapy 框架重新实现一遍。主要步骤就是新建项目 (Project) –> 定义目标（Items）–> 制作爬虫（Spider）–> 存储结果（Pipeline）

爬虫总结(一)-- 爬虫基础 & python实现

Posted on 2016-06-11 | In NLP , Crawler |

爬虫在平时也经常用，但一直没有系统的总结过，其实它涉及了许多的知识点。这一系列会理一遍这些知识点，不求详尽，只希望以点带面构建一个爬虫的知识框架。这一篇是概念性解释以及入门级爬虫介绍（以爬取网易新闻为例）。

gensim-doc2vec实战

Posted on 2016-06-01 | In NLP , Meaning Representation |

gensim的doc2vec找不到多少资料，根据官方api探索性的做了些尝试。本文介绍了利用gensim的doc2vec来训练模型，infer新文档向量，infer相似度等方法，有一些不成熟的地方，后期会继续改进。

gensim - word2vec实战

Posted on 2016-05-30 | In NLP , Meaning Representation |

介绍如何利用 gensim 库建立简单的 word2vec 模型。

word2vec详解之六 -- 若干源码细节

Posted on 2016-05-29 | In NLP , Meaning Representation |

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

word2vec详解之五 -- 基于 Negative Sampling 的模型

Posted on 2016-05-29 | In NLP , Meaning Representation |

word2vec详解之四 -- 基于Hierarchical Softmax 的模型

Posted on 2016-05-29 | In NLP , Meaning Representation |

徐阿衡

读万卷书，行万里路 @SYSU @CMU

RSS

GitHub LinkedIn 知乎