增量读取大文件的最快方法
问题内容:
当给定一个MAX_BUFFER_SIZE的缓冲区以及一个远远超过该缓冲区的文件时,怎么办:
- 以MAX_BUFFER_SIZE的块读取文件?
- 尽快完成
我尝试使用NIO
RandomAccessFile aFile = new RandomAccessFile(fileName, "r");
FileChannel inChannel = aFile.getChannel();
ByteBuffer buffer = ByteBuffer.allocate(CAPARICY);
int bytesRead = inChannel.read(buffer);
buffer.flip();
while (buffer.hasRemaining()) {
buffer.get();
}
buffer.clear();
bytesRead = inChannel.read(buffer);
aFile.close();
和常规IO
InputStream in = new FileInputStream(fileName);
long length = fileName.length();
if (length > Integer.MAX_VALUE) {
throw new IOException("File is too large!");
}
byte[] bytes = new byte[(int) length];
int offset = 0;
int numRead = 0;
while (offset < bytes.length
&& (numRead = in.read(bytes, offset, bytes.length - offset)) >= 0) {
offset += numRead;
}
if (offset < bytes.length) {
throw new IOException("Could not completely read file " + fileName);
}
in.close();
事实证明, 常规IO在执行与NIO相同的操作时快约100倍 。我想念什么吗?这是预期的吗?有没有更快的方法来读取缓冲区块中的文件?
最终,我正在处理一个大文件,但我没有足够的内存来一次读取所有文件。相反,我想逐步读取它,然后将其用于处理。
问题答案:
假设您需要一次将整个文件读入内存(就像您当前正在做的那样),那么读取较小的块和NIO都不会对您有所帮助。
实际上,您最好读取较大的块-常规IO代码会自动为您完成这些工作。
您的NIO代码目前较慢,因为您一次只能读取一个字节(使用buffer.get();
)。
如果要分块处理(例如,在流之间传输),这是在没有NIO的情况下进行处理的标准方法:
InputStream is = ...;
OutputStream os = ...;
byte buffer[] = new byte[1024];
int read;
while((read = is.read(buffer)) != -1){
os.write(buffer, 0, read);
}
这仅使用1 KB的缓冲区大小,但可以传输无限量的数据。
(如果您在功能级别上扩展了您实际想要做什么的详细信息,我可以进一步改善它以得到更好的答案。)