Cython prange慢4线程,然后有范围


问题内容

我目前正在尝试遵循一个简单的示例,以将循环与cython的prange并行化。我已经安装了允许Openmp的OpenBlas
0.2.14,并从源代码针对Openblas编译了numpy 1.10.1和scipy
0.16。为了测试库的性能,我遵循以下示例:http :
//nealhughes.net/parallelcomp2/。要计时的功能从站点复制:

import numpy as np
from math import exp 
from libc.math cimport exp as c_exp
from cython.parallel import prange,parallel

def array_f(X):

    Y = np.zeros(X.shape)
    index = X > 0.5
    Y[index] = np.exp(X[index])

    return Y

def c_array_f(double[:] X):

    cdef int N = X.shape[0]
    cdef double[:] Y = np.zeros(N)
    cdef int i

    for i in range(N):
        if X[i] > 0.5:
            Y[i] = c_exp(X[i])
        else:
            Y[i] = 0

    return Y


def c_array_f_multi(double[:] X):

    cdef int N = X.shape[0]
    cdef double[:] Y = np.zeros(N)
    cdef int i
    with nogil, parallel():
        for i in prange(N):
            if X[i] > 0.5:
                Y[i] = c_exp(X[i])
            else:
                Y[i] = 0

    return Y

该代码的作者报告了4个内核的以下加速:

from thread_demo import *
import numpy as np
X = -1 + 2*np.random.rand(10000000) 
%timeit array_f(X)
1 loops, best of 3: 222 ms per loop
%timeit c_array_f(X)
10 loops, best of 3: 87.5 ms per loop 
%timeit c_array_f_multi(X)
10 loops, best of 3: 22.4 ms per loop

当我在机器上运行这些示例(带有osx 10.10的macbook pro)时,获得以下导出时间 OMP_NUM_THREADS=1

In [1]: from bla import *
In [2]: import numpy as np
In [3]: X = -1 + 2*np.random.rand(10000000)
In [4]: %timeit c_array_f(X)
10 loops, best of 3: 89.7 ms per loop
In [5]: %timeit c_array_f_multi(X)
1 loops, best of 3: 343 ms per loop

和为 OMP_NUM_THREADS=4

In [1]: from bla import *
In [2]: import numpy as np
In [3]: X = -1 + 2*np.random.rand(10000000)
In [4]: %timeit c_array_f(X)
10 loops, best of 3: 89.5 ms per loop
In [5]: %timeit c_array_f_multi(X)
10 loops, best of 3: 119 ms per loop

我在openSuse机器上看到了相同的行为,因此是我的问题。作者如何在我的2个系统上针对4个线程运行相同的代码时,速度提高4倍。

用于生成的设置脚本*.c & .so也与博客中使用的脚本相同。

from distutils.core import setup
from Cython.Build import cythonize
from distutils.extension import Extension
from Cython.Distutils import build_ext
import numpy as np

ext_modules=[
    Extension("bla",
              ["bla.pyx"],
              libraries=["m"],
              extra_compile_args = ["-O3", "-ffast-math","-march=native", "-fopenmp" ],
              extra_link_args=['-fopenmp'],
              include_dirs = [np.get_include()]
              ) 
]

setup( 
  name = "bla",
  cmdclass = {"build_ext": build_ext},
  ext_modules = ext_modules
)

如果有人可以向我解释为什么会发生,那将是很棒的。


问题答案:

1)prange(像其他parallel for循环一样 )的
一个重要功能是它激活乱序执行,这意味着该循环可以按任意顺序执行。当您在两次迭代之间没有数据依赖性时,无序执行确实会有所回报。

我不了解Cython的内部原理,但我认为,如果boundscheck未关闭ing,则循环将无法任意执行,因为下一次迭代将取决于数组在当前迭代中是否超出范围,因此问题几乎变成串行的,因为线程将不得不等待结果。这是代码的问题之一。实际上,Cython确实向我发出以下警告:

warning: bla.pyx:42:16: Use boundscheck(False) for faster access

所以添加以下内容

from cython import boundscheck, wraparound

@boundscheck(False)
@wraparound(False)
def c_array_f(double[:] X):
   # Rest of your code

@boundscheck(False)
@wraparound(False)
def c_array_f_multi(double[:] X):
   # Rest of your code

现在让我们为它们加上数据时间X = -1 + 2*np.random.rand(10000000)

带边界检查:

In [2]:%timeit array_f(X)
10 loops, best of 3: 189 ms per loop
In [4]:%timeit c_array_f(X)
10 loops, best of 3: 93.6 ms per loop
In [5]:%timeit c_array_f_multi(X)
10 loops, best of 3: 103 ms per loop

无界检查:

In [9]:%timeit c_array_f(X)
10 loops, best of 3: 84.2 ms per loop
In [10]:%timeit c_array_f_multi(X)
10 loops, best of 3: 42.3 ms per loop

这些结果是num_threads=4(我有4个逻辑核心),并且速度提高了大约2倍。在进一步介绍之前,我们仍然可以ms通过声明数组是连续的(即声明XYwith)来省掉一些其他的工作double[::1]

连续数组:

In [14]:%timeit c_array_f(X)
10 loops, best of 3: 81.8 ms per loop
In [15]:%timeit c_array_f_multi(X)
10 loops, best of 3: 39.3 ms per loop

2) 更加重要的是工作安排,这就是基准测试所遭受的。默认情况下,块大小是在编译时确定的,schedule=static但是,很可能两台机器(您和博客文章中的一台)的环境变量(例如OMP_SCHEDULE)和工作负载是不同的,并且它们调度作业在运行时,动态地,引导地等等。让我们尝试用替换您prange

for i in prange(N, schedule='static'):
    # static scheduling... 
for i in prange(N, schedule='dynamic'):
    # dynamic scheduling...

现在让它们计时(仅是多线程代码):

计划效果:

In [23]:%timeit c_array_f_multi(X) # static
10 loops, best of 3: 39.5 ms per loop
In [28]:%timeit c_array_f_multi(X) # dynamic
1 loops, best of 3: 319 ms per loop

可能
能够复制此文件,具体取决于您自己计算机上的工作量。附带说明一下,由于您只是在微基准测试中尝试测量并行与串行代码的性能,而不是实际代码,因此建议您摆脱这种if- else情况,即仅保留Y[i] = c_exp(X[i])在for循环内。这是因为if- else语句还会对并行代码中的分支预测和乱序执行产生不利影响。在我的机器上,通过此更改,我获得了比串行代码近2.7倍的加速。