特征工程学习2——皮尔逊相关系数筛选(单变量筛选)
值域为正负1之间,用来筛查单变量与预测结果之间的相关关系,一般来讲:
绝对值在0-0.1之间:无关绝对值在0.1-0.3之间:弱相关关系绝对值在0.3-0.6之间:存在相关关系绝对值在0.6-0.9之间:强相关关系绝对值大于0.9:几乎线性相关
主要的功能函数:
def pearsonr_selection(x_data, y_data): # 皮尔逊pearsonr相关系数
from scipy.stats import pearsonr
para_dict3 = []
for col_name, c_data in x_data.iteritems():
sp = pearsonr(c_data, y_data)[0]
para_dict3.append([col_name, abs(sp)])
# 对特征进行排序
featu
共有 0 条评论