如何从每个类中提取两个值并将其放入测试集中?

所以我得到了一个包含 120 行和 124 列的数据集。从属列是人的字符串名称。总共有20个不同的名字。我想从每个类中提取两行(因此为每个类提取两行具有相同名称的行)以便我可以用它创建一个测试集。任何帮助将不胜感激。谢谢



忽然笑
浏览 115回答 1
1回答

三国纷争

您可以使用以下函数来执行此操作:X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,stratify =y)这里,X = 包含所有自变量的数据框。y = 具有因变量的序列。test_size = 你想要作为测试大小的百分比,这里是 20%。stratify = 所有类别的平均分配,在你的例子中是 20 个人的名字。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python