词频统计python
def read_file(file):
"""接收文件名为参数,将文件中的内容读为字符串,
只保留文件中的英文字母和西文符号,
过滤掉中文(中文字符及全角符号Unicode编码都大于256)
将所有字符转为小写,
将其中所有标点、符号替换为空格,返回字符串
"""
with open(file, 'r', encoding='utf-8') as data:
string_sign = '!"/'-#$%&()*+,./:;<=>?@[//]^_‘{|}~'
string_txt = data.read()
# print(string_txt)
for letter in string_txt:
if not letter.isascii():
string_txt = string_txt.replace(letter, '')
string_txt
词频统计python最先出现在Python成神之路。
共有 0 条评论