文本分析之我的词库
文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,词库也不认识它。但研究者自己认识它,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可,如下图:
接下来针对三个词库的设置进行具体说明。
新词词库
如果是新词,那么其操作方式为输入或者粘贴即可,通常可在‘新词发现’时找出一些潜在的新词,然后整理在EXCEL中,最后一次性复制和粘贴到框框中就好。比如下图:
批量加入新词后,左侧框中即呈现出全部新词。当然也可对新词进行移除处理,也可以搜索是否某个新词已经加入新词库,也或者下载出所有设置好的新词等。如下图所示:
特别提示:
在‘新词发现’功能处,有加入或者移出新词的功能。但通常情况下建议一次性将新词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。
停用词
停用词是指已经不再需要计算频率的词,研究者可自行批量设置,类似如下图操作即可:
批量加入停用词后,左侧框中会展示所有的停用词,研究者也可删除停用词,搜索是否某个词为停用词,并且下载所有的停用词等。如下图所示:
特别提示:
在词云分析和词定位分析处,均有加入或者移出停用词的功能。但通常情况下建议一次性将停用词批量处理,在处理完成后,重新进行分析,重新进行分析的方式为:点‘我的项目’-》点击‘重新分析ICON’。
情感词
如果系统未识别到某个关键词的情感得分,也或者希望自己设置情感词,此时可进行设置。其输入格式为:“情感词,情感分值”,比如“很好,0.8”,此处情感分值建议规则为:-1到1分之间,大于1/3为情感正向,小于-1/3为情感负向[SPSSAU的情感计分规则是这样],情感得分绝对值越大意味着情感程度越高。
当有多个情感词时,换行输入(或者粘贴即可),操作类似如下图:
在加入情感词之后,左侧框中会展示所有自定义的情感词,研究者也可删除它,搜索是否某个词为自定义情感词,并且下载所有自定义情感词等。如下图所示:
特别提示:
在情感词自定义设置之后,如果需要查看按词情感分析,那么需要重新分析,重新进行分析的方式为:点‘文本情感分析’-》“按词”-》点击‘重新分析’。如下图所示:
版权声明:
作者:congcong
链接:https://www.techfm.club/p/107464.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论