基于Laplacian图谱的短文本聚类算法
论文笔记:[1]孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏.基于Laplacian图谱的短文本聚类算法[J].电子学报,2021,49(09):1716-1723.
论文笔记内容包括:应用场景、优势亮点、方法步骤
应用场景
短文本是生活中极其常见的内容形式,手机短信、用户评论及微博话题等都属于短文本,对短文本进行聚 类分析具有重要的应用价值,如对用户评论进行观点挖掘、对社交媒体进行话题检测以及舆情预警等。
由于短文本数据的特点,会导致传统的聚类算法对短文本聚类精度不高且收敛速度较慢,特点如下:
特征维数高特征难提取噪音数据多
其主要的三个方面原因如下:
对于非结构化或半结构化的短文本数据,文本向量维度高,聚类结果不准确初始聚类中心随机选择,可能导致算法的时间开销过大短文本数据特征稀疏,聚类过程易受到噪声数据影响,算法鲁棒性差
优势亮点
至今的方法都没能解决这两个问题
短文本数据聚类收
共有 0 条评论