pyspark 基于分位数的异常值剔除
文章目录
先解释下四分位数如何通过四分位数判断一组数据中的异常值代码实现
先解释下四分位数
如何通过四分位数判断一组数据中的异常值
通过 Tukey’s Test方法计算,此方法可用于识别一组数据中的异常值:
具体方法如下:其中Q3代表上四分位数,Q1代表下四分位数,k代表系数,可以取值1.5或3。
最大值估计= Q3+k(Q3-Q1)最小值估计= Q1-k(Q3-Q1)
当k=3时,代表极度异常值; 当k=1.5时,代表中度异常值。
代码实现
异常值:不属于正常的值 包含:缺失值,超过正常范围内的较大值或较小值
+ 分位数去极值
+ 中位数绝对偏差去极值
+ 正态分布去极值
上述三种操作的核心都是:通过原始数据设定一个正常的范围,超过此范围的就是一个异常值
# spark 分位数去极值
# https://spark.apache.org/docs/lat
版权声明:
作者:zhangchen
链接:https://www.techfm.club/p/27566.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
共有 0 条评论