机器学习支持向量机对新闻文本进行分类
数据集:sklearn的新闻抓取器fetch_20newsgroups 预处理:删除标点符号,对文本单词进行统计,统计出所有单词(去除重复的),然后将这些单词作为特征向量,将行数作为维度。
① :分割数据集,分为训练集和测试集 ② :使用TfidfVectorizer(文本特征提取)对文本进行特征向量转化(将文本转化成多维度的特征向量) ③ :初始化SVC模型,用分割好的训练数据,训练SVC模型 ④ :用训练好的模型,预测测试集 ⑤ :用svc自带的评估来评估模型,用classification_report对预测结果(分类器性能)评估
from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all')
from string import punctuation
table = str.maketr
共有 0 条评论