gensim实战01——word2vec
介绍
搜狗语料库(http://www.sogou.com/labs/resource/list_yuliao.php)是可以免费获取的比较大的中文新闻语料库。可是最新的也就是更新到2012年的语料,后续并无放出更新的语料。除了搜狗语料,要获取其余领域相关的中文语料,可能就须要本身动手写个爬虫去相关网站上爬取。后面经过检索,发现可以使用免费的中文维基百科来进行词向量的训练,因而我也下载处理了最新的维基语料,使用word2vec工具进行了中文词向量的训练。
1使用维基百科训练简体中文词向量
1.1下载中文维基百科
wiki语料库下载网址:https://dumps.wikimedia.org/ 最近的中文wiki语料:https://dumps.wikimedia.org/zhwiki/latest/spa 其中zhwiki-latest-pages-articles.xml.bz2文件包含了标题、正文部分
共有 0 条评论