卡方检验的计算

该计算sklearn.feature_selection.chi2 与卡方独立性检验的典型教科书示例不同（对于此类经典的卡方检验，请参阅下面我提供的手动计算）。sklearn.feature_selection.chi2：假设我们有一个目标变量 y（分类，例如 0, 1, 2）和一个非负连续变量 x（例如，0 到 100 之间的任何位置），并且我们想要测试 x 和 y 之间的独立性（例如，y 独立于 x 意味着 x 作为预测特征没有用）。该算法计算给定 y 的 x 的组和（例如，sum_x_y0、sum_x_y1、sum_x_y2 - 称它们为观察值），并将这些观察值与 x 的概率权重总计（例如，prob_y0*x_tot、prob_y1*x_tot、prob_y2* x_tot——称它们为预期），使用卡方检验，对 y 中的 k 类别具有 (k-1) 个自由度。因为它使用卡方检验，所以正如我想象的那样，它的计算中不能有负和。（我不确定这是否有学术参考，但这种方法似乎是有意义的。）这是sklearn 用户指南中的示例代码，用于使用chi2.from sklearn.datasets import load_irisfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2X, y = load_iris(return_X_y=True)print(X.shape)X_new = SelectKBest(chi2, k=2).fit_transform(X, y)X_new.shape对于两个分类变量之间独立性的经典卡方检验，这是我的手动计算代码，它似乎与scipy卡方计算相匹配。我使用的公式与您上面发布的相同，但dof是（x - 1 中的 var 级别）和（y - 1 中的级别）。from sklearn.feature_selection import chi2x = [[1, 2, 0, 0, 1], [0, 0, 1, 0, 0], [0, 0, 0, 2, 1]]y = [True, False, False]chi2(x,y)[0]import numpy as npdef is_val_eq(vec, val): return [i==val for i in vec]def chi_E(vec1, vec1_val, vec2, vec2_val): num1 = sum(is_val_eq(vec1, vec1_val)) num2 = sum(is_val_eq(vec2, vec2_val)) return num1*num2/len(vec1)def chi_O(vec1, vec1_val, vec2, vec2_val): idx1 = is_val_eq(vec1, vec1_val) idx2 = is_val_eq(vec2, vec2_val) return sum(np.logical_and(idx1, idx2))def chi_inside(O, E): return (O-E)**2/Edef chi_square(Os, Es): return sum([chi_inside(O,E) for O,E in zip(Os, Es)])def get_col(x, col): return [row[col] for row in x]def calc_chi(vec_x, vec_y): val_xs = set(vec_x) val_ys = set(vec_y) Es = [chi_E(vec_x, val_x, vec_y, val_y) for val_x in val_xs for val_y in val_ys] Os = [chi_O(vec_x, val_x, vec_y, val_y) for val_x in val_xs for val_y in val_ys] return chi_square(Os, Es), Es, Osfrom scipy.stats import chi2_contingency from scipy import statschi_calc = dict(manual=[], scipy_cont=[], scipy_stats=[])for idx_feature in range(5): chi_sq, Es, Os = calc_chi(get_col(x, idx_feature), y) chi_calc['manual'].append(chi_sq) data = [Os[0:2], Os[2:4]] stat, p, dof, expected = chi2_contingency(data, correction=False) chi_calc['scipy_cont'].append(stat) result = stats.chisquare(data, f_exp = expected, ddof = 1, axis=None) chi_calc['scipy_stats'].append(result.statistic)直观上，如果您试图测试的分类变量列相x对于的独立性y，则的前两列x应该给出相同的统计量（因为它们只是彼此的缩放版本，因此在分类级别方面是相同的）。

卡方检验的计算

2回答