python-docx:将表解析为Panda Dataframe


问题内容

我正在使用该python-docx库提取ms
word文档。我可以使用相同的库从word文档中获取所有表。但是,我想将表解析为熊猫数据框,是否可以使用任何内置功能将表解析为数据框,还是必须手动进行?另外,是否有可能知道表格所在的标题名称?谢谢

from docx import Document
from docx.shared import Inches
document = Document('test.docx')

tabs = document.tables

问题答案:

您可以使用以下代码从文档中的数据框中提取表:

from docx import Document
import pandas as pd
document = Document('test.docx')

tables = []
for table in document.tables:
    df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
    for i, row in enumerate(table.rows):
        for j, cell in enumerate(row.cells):
            if cell.text:
                df[i][j] = cell.text
    tables.append(pd.DataFrame(df))
print(tables)

您可以从表变量中获取所有表。