增量读取大文件的最快方法


问题内容

当给定一个MAX_BUFFER_SIZE的缓冲区以及一个远远超过该缓冲区的文件时,怎么办:

  1. 以MAX_BUFFER_SIZE的块读取文件?
  2. 尽快完成

我尝试使用NIO

    RandomAccessFile aFile = new RandomAccessFile(fileName, "r");
    FileChannel inChannel = aFile.getChannel();

    ByteBuffer buffer = ByteBuffer.allocate(CAPARICY);

    int bytesRead = inChannel.read(buffer);

    buffer.flip();

        while (buffer.hasRemaining()) {
            buffer.get();
        }

        buffer.clear();
        bytesRead = inChannel.read(buffer);

    aFile.close();

和常规IO

    InputStream in = new FileInputStream(fileName);

    long length = fileName.length();

    if (length > Integer.MAX_VALUE) {
        throw new IOException("File is too large!");
    }

    byte[] bytes = new byte[(int) length];

    int offset = 0;

    int numRead = 0;

    while (offset < bytes.length
            && (numRead = in.read(bytes, offset, bytes.length - offset)) >= 0) {
        offset += numRead;
    }

    if (offset < bytes.length) {
        throw new IOException("Could not completely read file " + fileName);
    }

    in.close();

事实证明, 常规IO在执行与NIO相同的操作时快约100倍 。我想念什么吗?这是预期的吗?有没有更快的方法来读取缓冲区块中的文件?

最终,我正在处理一个大文件,但我没有足够的内存来一次读取所有文件。相反,我想逐步读取它,然后将其用于处理。


问题答案:

假设您需要一次将整个文件读入内存(就像您当前正在做的那样),那么读取较小的块和NIO都不会对您有所帮助。

实际上,您最好读取较大的块-常规IO代码会自动为您完成这些工作。

您的NIO代码目前较慢,因为您一次只能读取一个字节(使用buffer.get();)。

如果要分块处理(例如,在流之间传输),这是在没有NIO的情况下进行处理的标准方法:

InputStream is = ...;
OutputStream os = ...;

byte buffer[] = new byte[1024];
int read;
while((read = is.read(buffer)) != -1){
    os.write(buffer, 0, read);
}

这仅使用1 KB的缓冲区大小,但可以传输无限量的数据。

(如果您在功能级别上扩展了您实际想要做什么的详细信息,我可以进一步改善它以得到更好的答案。)