徐阿衡

Shuang


  • Home

  • Categories

  • Works

  • About

  • Tags

  • Search
close

word2vec详解之三 -- 背景知识

Posted on 2016-05-29   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »

word2vec详解之二 -- 预备知识

Posted on 2016-05-29   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »

word2vec详解之一 -- 目录和前言

Posted on 2016-05-28   |   In NLP , Meaning Representation   |  

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。

Read more »

PHP连接数据库js可视化数据

Posted on 2016-05-26   |  
Read more »

短句归一化--LSI模型

Posted on 2016-05-25   |   In NLP , Meaning Representation   |  

LSI 理解

LSI(Latent Semantic Indexing),中文意译是潜在语义索引,即通过海量文献找出词汇之间的关系。基本理念是当两个词或一组词大量出现在一个文档中时,这些词之间就是语义相关的。

Read more »

在c里调用python

Posted on 2016-05-22   |   In Others   |  

这一个例子是c调用了python的函数,函数返回值是list,包含了100个float值。

Read more »

AP聚类

Posted on 2016-05-19   |  

AP算法的具体工作过程如下:先计算N个点之间的相似度值,将值放在S矩阵中,再选取P值(一般取S的中值)。设置一个最大迭代次数(文中设默认值为1000),迭代过程开始后,计算每一次的R值和A值,根据R(k,k)+A(k,k)值来判断是否为聚类中心(文中指定当(R(k,k)+A(k,k))>0时认为是一个聚类中心),当迭代次数超过最大值( 即maxits值)或者当聚类中心连续多少次迭代不发生改变( 即convits值)时终止计算(文中设定连续50次迭代过程不发生改变是终止计算)。

Read more »

LDA 以及 Gensim 实现

Posted on 2016-05-18   |   In NLP , Meaning Representation   |  

用 Gensim 实现 LDA,相比 JGibbLDA 的使用 Gensim 略为麻烦,然而感觉更清晰易懂,也就更灵活。

Read more »

Gensim-用Python做主题模型

Posted on 2016-05-18   |   In NLP , Meaning Representation   |  

gensim 介绍

gemsim是一个免费python库,能够从文档中有效地自动抽取语义主题。gensim中的算法包括:LSA(Latent Semantic Analysis), LDA(Latent Dirichlet Allocation), RP (Random Projections), 通过在一个训练文档语料库中,检查词汇统计联合出现模式, 可以用来发掘文档语义结构,这些算法属于非监督学习,可以处理原始的,非结构化的文本(”plain text”)。

Read more »

JGibbLDA实战

Posted on 2016-05-16   |   In NLP , Meaning Representation   |  

尝试了下JGibbLDA,发现按官方教程用以下命令直接运行jar包会出现错误。

Read more »
1…151617
徐阿衡

徐阿衡

读万卷书,行万里路 @SYSU @CMU

167 posts
19 categories
126 tags
RSS
GitHub LinkedIn 知乎
Links
  • Star
  • Liam Huang
  • Li Bin
© 2016 - 2022 徐阿衡 粤ICP备17129486号
Powered by Hexo
Theme - NexT.Mist