查找一个数组与另一个数组中所有值的最接近索引-Python / NumPy

问题内容：

我有一个复数列表，我想在另一个复数列表中找到最接近的值。

我目前使用numpy的方法：

import numpy as np

refArray = np.random.random(16);
myArray = np.random.random(1000);


def find_nearest(array, value):
    idx = (np.abs(array-value)).argmin()
    return idx;

for value in np.nditer(myArray):
    index = find_nearest(refArray, value);
    print(index);

不幸的是，这需要花费大量的时间。是否有更快或更“ pythonian”的方式将myArray中的每个值匹配到refArray中最接近的值？

仅供参考： 我的脚本中不一定需要numpy。

重要说明： myArray和refArray的顺序都很重要，不应更改。如果要进行排序，则应以某种方式保留原始索引。

问题答案：

这是一种np.searchsorted基于this post-的矢量化方法

def closest_argmin(A, B):
    L = B.size
    sidx_B = B.argsort()
    sorted_B = B[sidx_B]
    sorted_idx = np.searchsorted(sorted_B, A)
    sorted_idx[sorted_idx==L] = L-1
    mask = (sorted_idx > 0) & \
    ((np.abs(A - sorted_B[sorted_idx-1]) < np.abs(A - sorted_B[sorted_idx])) )
    return sidx_B[sorted_idx-mask]

简要说明：

获取左位置的排序索引。我们使用-np.searchsorted(arr1, arr2, side='left')或just进行此操作np.searchsorted(arr1, arr2)。现在，searchsorted期望将排序数组作为第一个输入，因此我们需要在那里做一些准备工作。
比较那些左侧位置的值和其紧邻右侧位置的值，(left + 1)看看哪一个最接近。我们在计算的步骤中执行此操作mask。
根据左边的还是最右边的，选择相应的。这是通过对索引进行减法来完成的，将mask值作为偏移量转换为ints。

标杆管理

原始方法-

def org_app(myArray, refArray):
    out1 = np.empty(myArray.size, dtype=int)
    for i, value in enumerate(myArray):
        # find_nearest from posted question
        index = find_nearest(refArray, value)
        out1[i] = index
    return out1

时间和验证-

In [188]: refArray = np.random.random(16)
     ...: myArray = np.random.random(1000)
     ...:

In [189]: %timeit org_app(myArray, refArray)
100 loops, best of 3: 1.95 ms per loop

In [190]: %timeit closest_argmin(myArray, refArray)
10000 loops, best of 3: 36.6 µs per loop

In [191]: np.allclose(closest_argmin(myArray, refArray), org_app(myArray, refArray))
Out[191]: True

50x+ 加快发布的样本的速度，希望对更大的数据集有更多的速度！

查找一个数组与另一个数组中所有值的最接近索引-Python / NumPy

微信关注