词频统计python

def read_file(file):
"""接收文件名为参数,将文件中的内容读为字符串,
只保留文件中的英文字母和西文符号,
过滤掉中文(中文字符及全角符号Unicode编码都大于256)
将所有字符转为小写,
将其中所有标点、符号替换为空格,返回字符串
"""
with open(file, 'r', encoding='utf-8') as data:
string_sign = '!"/'-#$%&()*+,./:;<=>?@[//]^_‘{|}~'
string_txt = data.read()
# print(string_txt)
for letter in string_txt:
if not letter.isascii():
string_txt = string_txt.replace(letter, '')
string_txt

词频统计python最先出现在Python成神之路

版权声明:
作者:Mr李
链接:https://www.techfm.club/p/17056.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>