【偷偷卷死小伙伴Pytorch20天-day03-文本数据建模流程范例】

今天是pytorch学习打卡的第三天,加油!

1.数据准备
imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签
训练集有20000条电影评论文本,测试集有5000条电影评论文本,其中正面评论和负面评论都各占一半。
文本数据预处理较为繁琐,包括中文切词(本示例不涉及),构建词典,编码转换,序列填充,构建数据管道等等。
在torch中预处理文本数据一般使用torchtext或者自定义Dataset,torchtext功能非常强大,可以构建文本分类,序列标注,问答模型,机器翻译等NLP任务的数据集。
下面仅演示使用它来构建文本分类数据集的方法。 先导包 提取数据
import numpy as np
import pandas as pd
from collections import OrderedDict
import re,string
MAX_WORDS = 1000

【偷偷卷死小伙伴Pytorch20天-day03-文本数据建模流程范例】最先出现在Python成神之路

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/21737.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>