简明 jieba 中文分词教程
from https://www.jianshu.com/p/883c2171cdb5 0 引言 jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:
支持 3 种分词模式:精确模式、全模式、搜索引擎模式 支持繁体分词 支持自定义词典
导入 jieba
import jieba import jieba.posseg as pseg #词性标注 import jieba.analyse as anls #关键词提取 1 分词 可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:
jieba.cut 和 j
版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/4741.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
共有 0 条评论