使用numpy进行数组重分类

问题内容：

我有一个包含10位数字的大型（50000 x 50000）64位整数NumPy数组。数组中大约有250,000个唯一数字。

我有第二个重新分类表，该表将第一个数组中的每个唯一值映射到1到100之间的整数。我希望将第一个数组中的值重新分类为第二个数组中的对应值。

我尝试了两种方法来执行此操作，尽管它们起作用，但速度却很慢。在这两种方法中，我都会创建一个尺寸相同的空白（零）数组。

new_array = np.zeros(old_array.shape)

第一种方法：

for old_value, new_value in lookup_array:
    new_array[old_array == old_value] = new_value

第二种方法，其中lookup_array在熊猫数据框中，标题为“旧”和“新”：

for new_value, old_values in lookup_table.groupby("New"):
    new_array[np.in1d(old_array, old_values)] = new_value

有没有更快的方法来重新分类值

问题答案：

将查找表存储为250,000个元素数组，其中每个索引都有映射值。例如，如果您有以下内容：

lookups = [(old_value_1, new_value_1), (old_value_2, new_value_2), ...]

然后，您可以执行以下操作：

idx, val = np.asarray(lookups).T
lookup_array = np.zeros(idx.max() + 1)
lookup_array[idx] = val

当您得到它时，可以简单地得到转换后的数组：

new_array = lookup_array[old_array]