快速获取.npy数组中每N行平均值的快速方法
问题内容:
我有一个非常大的originalArray
带有许多行和两列的蒙版NumPy数组()。我想获取每两行的平均值,originalArray
并构建一个newArray
其中每行是两行的平均值的行originalArray
(因此,行数是的newArray
一半originalArray
)。这应该是一件简单的事情,但是下面的脚本非常慢。任何来自社区的建议将不胜感激。
newList = []
for i in range(0, originalArray.shape[0], 2):
r = originalArray[i:i+2,:].mean(axis=0)
newList.append(r)
newArray = np.asarray(newList)
必须有一种更优雅的方法。非常感谢!
问题答案:
两个值的平均值a
,并b
为0.5*(a+b)
因此你可以做这样的:
newArray = 0.5*(originalArray[0::2] + originalArray[1::2])
它将所有连续的两行相加,最后将每个元素乘以0.5
。
由于在标题中您要在N行上求平均值,因此这是一个更通用的解决方案:
def groupedAvg(myArray, N=2):
result = np.cumsum(myArray, 0)[N-1::N]/float(N)
result[1:] = result[1:] - result[:-1]
return result
n
元素上的均值的一般形式是sum([x1,x2,...,xn])/n
。向量中m
to的元素之和与从的th元素减去th元素相同。 除非
为0, 否则 您将不减去任何值(结果[0])。
这就是我们在这里利用的优势。另外,由于所有内容都是线性的,因此除以并不重要,因此我们一开始就要做,但这只是一个问题。m+n``v``m-1``m+n``cumsum(v)
m
N
如果最后一组的N
元素少于个,它将被完全忽略。如果您不想忽略它,则必须特别对待最后一组:
def avg(myArray, N=2):
cum = np.cumsum(myArray,0)
result = cum[N-1::N]/float(N)
result[1:] = result[1:] - result[:-1]
remainder = myArray.shape[0] % N
if remainder != 0:
if remainder < myArray.shape[0]:
lastAvg = (cum[-1]-cum[-1-remainder])/float(remainder)
else:
lastAvg = cum[-1]/float(remainder)
result = np.vstack([result, lastAvg])
return result