快速获取.npy数组中每N行平均值的快速方法


问题内容

我有一个非常大的originalArray带有许多行和两列的蒙版NumPy数组()。我想获取每两行的平均值,originalArray并构建一个newArray其中每行是两行的平均值的行originalArray(因此,行数是的newArray一半originalArray)。这应该是一件简单的事情,但是下面的脚本非常慢。任何来自社区的建议将不胜感激。

newList = []
for i in range(0, originalArray.shape[0], 2):
    r = originalArray[i:i+2,:].mean(axis=0)
    newList.append(r)
newArray = np.asarray(newList)

必须有一种更优雅的方法。非常感谢!


问题答案:

两个值的平均值a,并b0.5*(a+b)
因此你可以做这样的:

newArray = 0.5*(originalArray[0::2] + originalArray[1::2])

它将所有连续的两行相加,最后将每个元素乘以0.5

由于在标题中您要在N行上求平均值,因此这是一个更通用的解决方案:

def groupedAvg(myArray, N=2):
    result = np.cumsum(myArray, 0)[N-1::N]/float(N)
    result[1:] = result[1:] - result[:-1]
    return result

n元素上的均值的一般形式是sum([x1,x2,...,xn])/n。向量中mto的元素之和与从的th元素减去th元素相同。 除非
为0, 否则 您将不减去任何值(结果[0])。
这就是我们在这里利用的优势。另外,由于所有内容都是线性的,因此除以并不重要,因此我们一开始就要做,但这只是一个问题。m+n``v``m-1``m+n``cumsum(v)
m
N

如果最后一组的N元素少于个,它将被完全忽略。如果您不想忽略它,则必须特别对待最后一组:

def avg(myArray, N=2):
    cum = np.cumsum(myArray,0)
    result = cum[N-1::N]/float(N)
    result[1:] = result[1:] - result[:-1]

    remainder = myArray.shape[0] % N
    if remainder != 0:
        if remainder < myArray.shape[0]:
            lastAvg = (cum[-1]-cum[-1-remainder])/float(remainder)
        else:
            lastAvg = cum[-1]/float(remainder)
        result = np.vstack([result, lastAvg])

    return result