如何加快熊猫多级数据帧的总和？

问题内容：

我正在尝试加快几个大型多级数据帧的总和。

这是一个示例：

df1 = mul_df(5000,30,400) # mul_df to create a big multilevel dataframe
#let df2, df3, df4 = df1, df1, df1 to minimize the memory usage, 
#they can also be mul_df(5000,30,400) 
df2, df3, df4 = df1, df1, df1

In [12]: timeit df1+df2+df3+df4
1 loops, best of 3: 993 ms per loop

我对993ms感到不满意，有什么办法可以加快速度吗？cython可以提高性能吗？如果是，如何编写cython代码？谢谢。

注意： mul_df()是用于创建演示多级数据框的功能。

import itertools
import numpy as np
import pandas as pd

def mul_df(level1_rownum, level2_rownum, col_num, data_ty='float32'):
    ''' create multilevel dataframe, for example: mul_df(4,2,6)'''

    index_name = ['STK_ID','RPT_Date']
    col_name = ['COL'+str(x).zfill(3) for x in range(col_num)]

    first_level_dt = [['A'+str(x).zfill(4)]*level2_rownum for x in range(level1_rownum)]
    first_level_dt = list(itertools.chain(*first_level_dt)) #flatten the list
    second_level_dt = ['B'+str(x).zfill(3) for x in range(level2_rownum)]*level1_rownum

    dt = pd.DataFrame(np.random.randn(level1_rownum*level2_rownum, col_num), columns=col_name, dtype = data_ty)
    dt[index_name[0]] = first_level_dt
    dt[index_name[1]] = second_level_dt

    rst = dt.set_index(index_name, drop=True, inplace=False)
    return rst

更新：

我的Pentium双核T4200 @ 2.00GHZ，3.00GB RAM，WindowXP，Python 2.7.4，Numpy 1.7.1，Pandas
0.11.0，numexpr 2.0.1（Anaconda 1.5.0（32位））上的数据

In [1]: from pandas.core import expressions as expr
In [2]: import numexpr as ne

In [3]: df1 = mul_df(5000,30,400)
In [4]: df2, df3, df4 = df1, df1, df1

In [5]: expr.set_use_numexpr(False)
In [6]: %timeit df1+df2+df3+df4
1 loops, best of 3: 1.06 s per loop

In [7]: expr.set_use_numexpr(True)
In [8]: %timeit df1+df2+df3+df4
1 loops, best of 3: 986 ms per loop

In [9]: %timeit  DataFrame(ne.evaluate('df1+df2+df3+df4'),columns=df1.columns,index=df1.index,dtype='float32')
1 loops, best of 3: 388 ms per loop

问题答案：

方法1：在我的机器上还不错（已numexpr禁用）

In [41]: from pandas.core import expressions as expr

In [42]: expr.set_use_numexpr(False)

In [43]: %timeit df1+df2+df3+df4
1 loops, best of 3: 349 ms per loop

方法2：使用numexpr（如果numexpr已安装，默认情况下启用）

In [44]: expr.set_use_numexpr(True)

In [45]: %timeit df1+df2+df3+df4
10 loops, best of 3: 173 ms per loop

方法3：直接使用 numexpr

In [34]: import numexpr as ne

In [46]: %timeit  DataFrame(ne.evaluate('df1+df2+df3+df4'),columns=df1.columns,index=df1.index,dtype='float32')
10 loops, best of 3: 47.7 ms per loop

这些加速是通过以下方式实现的numexpr：

避免使用中间临时数组（在您呈现的情况下，在numpy中可能效率很低，我怀疑这是像 ((df1+df2)+df3)+df4
使用可用的多核

正如我在上面暗示的那样，pandasnumexpr在某些特定类型的操作（例如0.11）下在后台使用，例如df1 + df2将以这种方式进行评估，但是您在此处给出的示例将导致多次调用numexpr（方法2比方法1快）
）。使用直接方法（方法3）ne.evaluate(...)可以实现更大的加速。

请注意，在熊猫0.13（本周将发布0.12）中，我们实现了一个函数pd.eval，该函数实际上将执行上述示例中的操作。敬请期待（如果您喜欢冒险，它将很快成为大师：https
:
//github.com/pydata/pandas/pull/4037）

In [5]: %timeit pd.eval('df1+df2+df3+df4')
10 loops, best of 3: 50.9 ms per loop

最后回答您的问题，cython将完全没有帮助；numexpr在这类问题上非常有效（也就是说，在某些情况下，cython很有帮助）

一个警告：为了使用直接的Numexpr方法，帧应该已经对齐（Numexpr在numpy数组上运行，并且对索引一无所知）。而且它们应该是单个dtype

如何加快熊猫多级数据帧的总和？

微信关注