分类:决策树

基础概念
信息熵
当前样本集合 D 中第 k 类样本所占的比例为 pk ,则 D 的信息熵定义为: 信息熵是度量样本集合纯度最常用的一种指标。信息熵越低,则样本的纯度越高。
条件熵
在已知样本属性a的取值情况下,假设离散属性 a 有 V 个可能的取值样本集合中,属性 a 上取值为av 的样本集合,记为 Dv,则D 的条件熵定义为:
条件熵也是度量样本集合纯度的一种指标
信息增益
信息增益=信息熵-条件熵,则属性a对样本集D进行划分所获得的信息增益为: 信息增益表示得知属性 a 的信息而使得样本集合不确定度减少的程度
信息增益率
信息增益率=信息增益/IV(a),说明信息增益率是信息增益除了一个属性a的固有值得来的。
基尼值
Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。
基尼指数
基尼值和基尼指数越

分类:决策树最先出现在Python成神之路

版权声明:
作者:倾城
链接:https://www.techfm.club/p/8018.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>