111111111111111111111111111111111111111111111111111111111111111
P(Y|X)条件概率。
H(Y|X)条件熵:计算公式。
信息增益:熵和条件熵的差,g(D,A),特征A对数据集D的信息增益。
g(D,A)=H(D)-H(D|A)。
熵:随机变量的不确定性。
决策树构建、剪枝。
熵的计算公式。
熵越大,变量的不确定性就越大。
泛化性能较差的意思是在测试集上表现较好,在其它数据集上可能表现的较差
k-means 算法精讲