【深度学习】将文本数据转换为张量的方法总结
目录
问题描述:
方法概括:
1.单词级的one-hot编码
2.字符级的one-hot编码
3.用keras实现单词级的one-hot编码
4.用散列技巧的单词级的one-hot1编码
参考:
问题描述:
深度学习模型不会接收原始文本作为输入,它只能处理数值张量。 文本向量化(vectorize)是指将文本转换为数值张量的过程。实现方法:①文本中的每个单词转换为一个向量.②文本中的每个字符转换为一个向量。
方法概括:
1.单词级的one-hot编码
代码展示
import numpy as np
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
#构建数据中被标记的索引
token_index = {}
for sample in samples:
#利用split方法进行分词
for word in sample.split():
if word not in token_inde
共有 0 条评论