“reduceat”中最快的 Python log-sum-exp

有一些改进的空间但永远不要期望 logsumexp 和标准求和一样快，因为这exp是一项相当昂贵的操作。例子import numpy as np#from version 0.43 until 0.47 this has to be set before importing numba#Bug: https://github.com/numba/numba/issues/4689from llvmlite import bindingbinding.set_option('SVML', '-vector-library=SVML')import numba as nb@nb.njit(fastmath=True,parallel=False)def logsum_exp_reduceat(arr, indices):    res = np.empty(indices.shape[0],dtype=arr.dtype)    for i in nb.prange(indices.shape[0]-1):        r = 0.        for j in range(indices[i],indices[i+1]):            r += np.exp(arr[j])          res[i]=np.log(r)    r = 0.    for j in range(indices[-1],arr.shape[0]):        r += np.exp(arr[j])      res[-1]=np.log(r)    return res计时#small example where parallelization doesn't make sensearr = np.random.uniform(0,0.1, 10_000)log_arr = np.log(arr)#use arrays if possibleindices = np.sort(np.random.randint(0, 10_000, 100))%timeit logsum_exp_reduceat(arr, indices)#without parallelzation 22 µs ± 173 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)#with parallelization   84.7 µs ± 32.2 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)%timeit np.add.reduceat(arr, indices)#4.46 µs ± 61.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)#large example where parallelization makes sensearr = np.random.uniform(0,0.1, 1000_000)log_arr = np.log(arr)indices = np.sort(np.random.randint(0, 1000_000, 100))%timeit logsum_exp_reduceat(arr, indices)#without parallelzation 1.57 ms ± 14.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)#with parallelization   409 µs ± 14.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)%timeit np.add.reduceat(arr, indices)#340 µs ± 11.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

“reduceat”中最快的 Python log-sum-exp

1回答