读取熊猫中CSV文件的所有内容(最后一行除外)


问题内容

我有熊猫读过的CSV文件:

#!/usr/bin/env python

import pandas as pd
import sys

filename = sys.argv[1]
df = pd.read_csv(filename)

不幸的是,这些文件的最后一行通常已损坏(逗号数量错误)。目前,我在文本编辑器中打开每个文件,然后删除最后一行。

是否可以在加载CSV的同一python / pandas脚本中删除最后一行,以节省必须采取的这一额外的非自动化步骤?


问题答案:

通过error_bad_lines=False,它将自动跳过此行

df = pd.read_csv(filename, error_bad_lines=False)

这样做的好处error_bad_lines是,它会跳过并且不会在任何错误的行上消失,但是如果最后一行始终skipfooter=1是Duff,则更好

感谢@DexterMorgan指出,该skipfooter选项强制引擎使用比c引擎解析csv慢的python引擎。