我有两个 numpy 变量,包含 32000 个条目,如下所示:
>>> files
array(['GAN_0.npy', 'GAN_1.npy', 'GAN_10.npy', ..., 'GAN_822.npy',
'GAN_8220.npy', 'GAN_8221.npy'], dtype='<U13')
>>> files.shape
(32000,)
>>> labels
array([1, 1, 1, ..., 1, 1, 1])
>>> np.unique(labels)
array([0, 1])
>>> labels.shape
(32000,)
换句话说,第一个变量是字符串的 NumPy 矩阵,而另一个变量是整数的 NumPy 矩阵。在第一个矩阵中,我有一个图像名称的字符串列表,在另一个矩阵中,我有一个整数作为我用来识别它们的标签(以名称 GAN_ 开头的图像为 1,而以名称 RAW_ 开头的图像为 0)。
我想知道是否可以将这 32000 个条目分成 10 个子集,每个子集 3200 个图像而不重复,即 1600 个名称以 RAW_ 开头的条目和其他 1600 个名称以 GAN_ 开头的条目。图像的名称和标签被打乱,因此我不能简单地将大矩阵分成 10 个子矩阵。因此,Numpy 中是否有任何方法可以在 Python 中创建来自 2 个类的 10 个分层且独立的样本子矩阵?
炎炎设计
月关宝盒
喵喵时光机
相关分类