徐阿衡

Shuang


  • Home

  • Categories

  • Works

  • About

  • Tags

  • Search
close

爬虫总结(四)-- 分布式爬虫

Posted on 2016-06-17   |   In NLP , Crawler   |  

分布式爬虫的演习。

Read more »

讲座笔记 -- 腾讯应用宝

Posted on 2016-06-15   |   In Others   |  

卓居超,2013年加入腾讯内部搜索部门,现负责腾讯应用宝搜索项目。近年来从事的科研工作集中在垂直领域的搜索、推荐技术研究。2015年代表腾讯公司在 WSDM 会议上做题为 “Semantic Matching in APP Search” 的主题报告,介绍腾讯应用宝语义搜索的技术实现。
今天他在公司做了一场关于腾讯应用宝的分享,这是一篇讲座笔记。

Read more »

爬虫总结(三)-- cloud scrapy

Posted on 2016-06-15   |   In NLP , Crawler   |  

发现了一个比较好玩的东西,scrapinghub,试着玩了一下 cloud scrapy,因为就它是免费的。。最大优点是可以将爬虫可视化。这里就简单记录一下它怎么用。

Read more »

爬虫总结(二)-- scrapy

Posted on 2016-06-12   |   In NLP , Crawler   |  

用现成的框架的好处就是不用担心 cookie、retry、频率限制、多线程的事。这一篇把上一篇的实例用 scrapy 框架重新实现一遍。主要步骤就是新建项目 (Project) –> 定义目标(Items)–> 制作爬虫(Spider)–> 存储结果(Pipeline)

Read more »

爬虫总结(一)-- 爬虫基础 & python实现

Posted on 2016-06-11   |   In NLP , Crawler   |  

爬虫在平时也经常用,但一直没有系统的总结过,其实它涉及了许多的知识点。这一系列会理一遍这些知识点,不求详尽,只希望以点带面构建一个爬虫的知识框架。这一篇是概念性解释以及入门级爬虫介绍(以爬取网易新闻为例)。

Read more »

gensim-doc2vec实战

Posted on 2016-06-01   |   In NLP , Meaning Representation   |  

gensim的doc2vec找不到多少资料,根据官方api探索性的做了些尝试。本文介绍了利用gensim的doc2vec来训练模型,infer新文档向量,infer相似度等方法,有一些不成熟的地方,后期会继续改进。

Read more »

gensim - word2vec实战

Posted on 2016-05-30   |   In NLP , Meaning Representation   |  

介绍如何利用 gensim 库建立简单的 word2vec 模型。

Read more »

word2vec详解之六 -- 若干源码细节

Posted on 2016-05-29   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »

word2vec详解之五 -- 基于 Negative Sampling 的模型

Posted on 2016-05-29   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »

word2vec详解之四 -- 基于Hierarchical Softmax 的模型

Posted on 2016-05-29   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »
1…14151617
徐阿衡

徐阿衡

读万卷书,行万里路 @SYSU @CMU

167 posts
19 categories
126 tags
RSS
GitHub LinkedIn 知乎
Links
  • Star
  • Liam Huang
  • Li Bin
© 2016 - 2022 徐阿衡 粤ICP备17129486号
Powered by Hexo
Theme - NexT.Mist