【偷偷卷死小伙伴Pytorch20天-day03-文本数据建模流程范例】

lichengxin • 2022-02-16 01:23 • 好物分享

今天是pytorch学习打卡的第三天，加油！

1.数据准备
imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签。
训练集有20000条电影评论文本，测试集有5000条电影评论文本，其中正面评论和负面评论都各占一半。
文本数据预处理较为繁琐，包括中文切词（本示例不涉及），构建词典，编码转换，序列填充，构建数据管道等等。
在torch中预处理文本数据一般使用torchtext或者自定义Dataset，torchtext功能非常强大，可以构建文本分类，序列标注，问答模型，机器翻译等NLP任务的数据集。
下面仅演示使用它来构建文本分类数据集的方法。先导包提取数据
import numpy as np
import pandas as pd
from collections import OrderedDict
import re,string
MAX_WORDS = 1000

【偷偷卷死小伙伴Pytorch20天-day03-文本数据建模流程范例】最先出现在Python成神之路。

版权声明：
作者：lichengxin
链接：https://www.techfm.club/p/21737.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

LaTeX代码：输出一元二次方程求解公式

< <上一篇

数据结构__前向星数组

下一篇>>

搜索内容

【偷偷卷死小伙伴Pytorch20天-day03-文本数据建模流程范例】

取消回复

共有 0 条评论

Ads