概述
在用python进行科学运算时,常常需要把一个稀疏的np.array压缩,这时候就用到scipy库中的sparse.csr_matrix(csr:Compressed Sparse Row marix) 和sparse.csc_matric(csc:Compressed Sparse Column marix)
官网直通车:直通车
csr_matrix
>>> indptr = np.array([0, 2, 3, 6])#0表示默认起始点,0之后有几个数字就表示有几行 >>> indices = np.array([0, 2, 2, 0, 1, 2]) >>> data = np.array([1, 2, 3, 4, 5, 6]) >>> csr_matrix((data, indices, indptr), shape=(3, 3)).toarray() array([[1, 0, 2], [0, 0, 3], [4, 5, 6]])1234567
注:矩阵下标为0.
其中:indptr参数,0表示默认起始点,0之后有几个数字就表示有几行
data 表示 元数据 显然为1, 2, 3, 4, 5, 6
shape 表示 矩阵的形状 为 3 * 3
indices 表示 各个数据在各行的下标, 从该数据我们可以知道:数据1在某行的0位置处, 数据2在某行的2位置处,6在某行的2位置处。
而各个数据在哪一行就要通过indptr参数得到的
indptr 表示每行数据的个数:[0 2 3 6]表示从第0行开始数据的个数,0表示默认起始点,0之后有几个数字就表示有几行,第一个数字2表示第一行有2 - 0 = 2个数字,因而数字1,2都第0行,第二行有3 - 2 = 1个数字,因而数字3在第1行,以此类推,我们能够知道所有数字的行号
Example: 数字6 ,indptr推出在第2行,indices推出在第2列。
csc_matrix
上面的csr_matrix是通俗易懂的解释方法,下面我们以csc_matrix为例来看看比较官方的解释:
# 示例解读>>> indptr = np.array([0, 2, 3, 6]) >>> indices = np.array([0, 2, 2, 0, 1, 2]) >>> data = np.array([1, 2, 3, 4, 5, 6])>>> csc_matrix((data, indices, indptr), shape=(3, 3)).toarray()array([[1, 0, 4], [0, 0, 5], [2, 3, 6]])# 按col列来压缩# 对于第i列,非0数据行是indices[indptr[i]:indptr[i+1]] 数据是data[indptr[i]:indptr[i+1]]# 在本例中,共有三列# 第0列,有非0元素的数据行(0列索引下的行)个数:indices[indptr[i]:indptr[i+1]]=indices[indptr[0]:indptr[1]]=indices[0:2] =2,这两个非0元素所在的行分别是indices[0],indices[2],对应的元素是data[indptr[0]:indptr[1]]=data[0:2]= [1,2],所以在第0列第0行是1,第2行是2# 第1行,有非0的数据行(1列索引下的行)个数是:indices[indptr[i]:indptr[i+1]]=indices[indptr[1]:indptr[2]] = indices[2:3]= 1这1个非0元素所在的行分别是indices[2] 数据是data[indptr[1]:indptr[2]] = data[2:3] = [3],所以在第1列第2行是3# 第2行,有非0的数据行是indices[indptr[2]:indptr[3]] = indices[3:6] = [0,1,2]# 数据是data[indptr[2]:indptr[3]] = data[3:6] = [4,5,6],所以在第2列第0行是4,第1行是5,第2行是6123456789101112131415161718
coo_matrix
这个就更容易了,给我一分钟。直接上例子如下:即n行,m列存了data[i],其余位置皆为0.
>>> from scipy.sparse import coo_matrix >>> coo_matrix((3, 4), dtype=np.int8).toarray() array([[0, 0, 0, 0], [0, 0, 0, 0], [0, 0, 0, 0]], dtype=int8)12345
>>> row = np.array([0, 3, 1, 0]) >>> col = np.array([0, 3, 1, 2]) >>> data = np.array([4, 5, 7, 9]) >>> coo_matrix((data, (row, col)), shape=(4, 4)).toarray() array([[4, 0, 9, 0], [0, 7, 0, 0], [0, 0, 0, 0], [0, 0, 0, 5]])12345678
是不是很绕,如果你有更好的来来来评论出来1!!!!