使用numpy.frompyfunc通过参数将广播添加到python函数
问题内容:
从数组db
(大约为(1e6, 300)
)和mask = [1, 0, 1]
向量中,我在第一列中将目标定义为1。
我想创建一个out
包含一个矢量的向量,其中对应的行db
与mask
和匹配target==1
,在其他所有位置都为零。
db = np.array([ # out for mask = [1, 0, 1]
# target, vector #
[1, 1, 0, 1], # 1
[0, 1, 1, 1], # 0 (fit to mask but target == 0)
[0, 0, 1, 0], # 0
[1, 1, 0, 1], # 1
[0, 1, 1, 0], # 0
[1, 0, 0, 0], # 0
])
我定义了一个vline
函数,该函数将amask
应用于每个数组行,np.array_equal(mask, mask & vector)
以检查矢量101和111是否适合掩码,然后仅保留其中的索引target == 1
。
out
初始化为 array([0, 0, 0, 0, 0, 0])
out = [0, 0, 0, 0, 0, 0]
该vline
函数定义为:
def vline(idx, mask):
line = db[idx]
target, vector = line[0], line[1:]
if np.array_equal(mask, mask & vector):
if target == 1:
out[idx] = 1
通过在for
循环中逐行应用此函数,可以得到正确的结果:
def check_mask(db, out, mask=[1, 0, 1]):
# idx_db to iterate over db lines without enumerate
for idx in np.arange(db.shape[0]):
vline(idx, mask=mask)
return out
assert check_mask(db, out, [1, 0, 1]) == [1, 0, 0, 1, 0, 0] # it works !
现在我想vline
通过创建一个向量ufunc
:
ufunc_vline = np.frompyfunc(vline, 2, 1)
out = [0, 0, 0, 0, 0, 0]
ufunc_vline(db, [1, 0, 1])
print out
但是ufunc
抱怨广播这些形状的输入:
In [217]: ufunc_vline(db, [1, 0, 1])
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-217-9008ebeb6aa1> in <module>()
----> 1 ufunc_vline(db, [1, 0, 1])
ValueError: operands could not be broadcast together with shapes (6,4) (3,)
In [218]:
问题答案:
从根本上讲,转换vline
为numpy的ufunc毫无意义,因为ufunc始终以元素方式应用于numpy数组。因此,输入自变量必须具有相同的形状,或者必须可广播为相同的形状。您正在将形状不兼容的两个数组传递给ufunc_vline
函数(db.shape == (6, 4)
和mask.shape == (3,)
),因此ValueError
您将看到。
还有其他几个问题ufunc_vline
:
-
np.frompyfunc(vline, 2, 1)
指定vline
应返回一个输出参数,而vline
实际上不返回任何内容(但out
在适当位置进行修改)。 -
您将
db
第一个参数传递给ufunc_vline
,而vline
希望第一个参数传递给idx
,该参数用作的行的索引db
。
另外,请记住,np.frompyfunc
与标准Pythonfor
循环相比,使用Python函数创建ufunc不会产生任何明显的性能优势。要查看任何重大改进,您可能需要使用低级语言(例如C)编码ufunc(请参见文档中的此示例)。
话虽如此,您的vline
函数可以使用标准的布尔数组操作轻松地向量化:
def vline_vectorized(db, mask):
return db[:, 0] & np.all((mask & db[:, 1:]) == mask, axis=1)
例如:
db = np.array([ # out for mask = [1, 0, 1]
# target, vector #
[1, 1, 0, 1], # 1
[0, 1, 1, 1], # 0 (fit to mask but target == 0)
[0, 0, 1, 0], # 0
[1, 1, 0, 1], # 1
[0, 1, 1, 0], # 0
[1, 0, 0, 0], # 0
])
mask = np.array([1, 0, 1])
print(repr(vline_vectorized(db, mask)))
# array([1, 0, 0, 1, 0, 0])