gensim实战01——word2vec

介绍
搜狗语料库(http://www.sogou.com/labs/resource/list_yuliao.php)是可以免费获取的比较大的中文新闻语料库。可是最新的也就是更新到2012年的语料,后续并无放出更新的语料。除了搜狗语料,要获取其余领域相关的中文语料,可能就须要本身动手写个爬虫去相关网站上爬取。后面经过检索,发现可以使用免费的中文维基百科来进行词向量的训练,因而我也下载处理了最新的维基语料,使用word2vec工具进行了中文词向量的训练。
1使用维基百科训练简体中文词向量
1.1下载中文维基百科
wiki语料库下载网址:https://dumps.wikimedia.org/ 最近的中文wiki语料:https://dumps.wikimedia.org/zhwiki/latest/spa 其中zhwiki-latest-pages-articles.xml.bz2文件包含了标题、正文部分

gensim实战01——word2vec最先出现在Python成神之路

版权声明:
作者:admin
链接:https://www.techfm.club/p/6868.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>