如何确保来自特定组的所有样本在 sklearn cross_val_predict

我有一个数据框,其中每个样本都属于一个组。例如:


df = a b c group

     1 1 2  G1

     1 6 1  G1

     8 2 8  G3

     2 8 7  G2

     1 9 2  G2

     1 7 2  G3

     4 0 2  G4

     1 5 1  G4

     6 7 8  G5

     3 3 7  G6

     1 2 2  G6

     1 0 5  G7

我想运行cross_val_predict,同时确保来自同一组的所有样本都在测试中或所有样本都在训练中。我想将数据分成 4 份 - 但要确保来自同一组的所有行都在测试或训练中。


因此,例如,第 0,1 行和第 4,5 行将在训练中,但第 3、6 行 (G3) 将在测试中


这可能吗?我在文档中看到了grouparg,但不是很清楚,也没有找到任何示例。


元芳怎么了
浏览 107回答 1
1回答

慕姐4208626

用作inGroupKFold的参数:cvcross_val_predict()scores = cross_val_score(model, X, y, groups, cv=GroupKFold())请注意,groups数组表示我们希望在同一训练/测试集中的数据组。它不是类标签数组。例如:from sklearn.datasets import make_blobsfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import GroupKFold, cross_val_scoreX, y = make_blobs(n_samples=15, random_state=0)model = LogisticRegression()groups = [0,0,0,1,1,1,1,2,2,2,2,3,3,3,3]scores = cross_val_score(model, X, y, groups, cv=GroupKFold(n_splits=3))print('cross val scores: {}'.format(scores))
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Go