将文件句柄传递给cython函数


问题内容

我想用cython编译python函数,以读取跳过某些记录的二进制文件(无需读取整个文件,然后切片,因为我会用光内存)。我可以想到这样的事情:

    def FromFileSkip(fid, count=1, skip=0):            
        if skip>=0:
            data = numpy.zeros(count)
            k = 0
            while k<count:
                try:
                    data[k] = numpy.fromfile(fid, count=1, dtype=dtype)
                    fid.seek(skip, 1)
                    k +=1
                except ValueError:
                    data = data[:k]
                    break
            return data

然后我可以使用如下功能:

 f = open(filename)
 data = FromFileSkip(f,...

但是,对于使用cython编译函数“ FromFileSkip”,我想定义函数中涉及的所有类型,因此也要定义“
fid”文件处理程序。如何在cython中定义其类型,因为它不是“标准”类型,例如整数。谢谢。


问题答案:

定义类型fid将无济于事,因为调用python函数仍然很昂贵。尝试使用“
-a”标志编译示例以了解我的意思。但是,可以将低级C函数用于文件处理,以避免循环中的python开销。出于示例的考虑,我假设数据从文件的开头开始,并且其类型为double

from libc.stdio cimport *

cdef extern from "stdio.h":
    FILE *fdopen(int, const char *)

import numpy as np
cimport numpy as np

DTYPE = np.double # or whatever your type is
ctypedef np.double_t DTYPE_t # or whatever your type is

def FromFileSkip(fid, int count=1, int skip=0):
    cdef int k
    cdef FILE* cfile
    cdef np.ndarray[DTYPE_t, ndim=1] data
    cdef DTYPE_t* data_ptr

    cfile = fdopen(fid.fileno(), 'rb') # attach the stream
    data = np.zeros(count).astype(DTYPE)
    data_ptr = <DTYPE_t*>data.data

    # maybe skip some header bytes here
    # ...

    for k in range(count):
        if fread(<void*>(data_ptr + k), sizeof(DTYPE_t), 1, cfile) < 0:
            break
        if fseek(cfile, skip, SEEK_CUR):
            break

    return data

请注意,的输出cython -a example.pyx显示循环内没有python开销。