如何在Word 2007 .docx文件中搜索单词?
问题内容:
我想在Word 2007文件(.docx)中搜索文本字符串,例如可以从Word中的搜索中找到的“某些特殊短语”。
Python有没有办法查看文本?我对格式化没有兴趣-我只想将文档归类为具有或不具有“某些特殊短语”。
问题答案:
更确切地说,.docx文档是OpenXML格式的Zip存档:您必须首先解压缩它。
我下载了一个示例(Google: 一些搜索词filetype:docx ),解压缩后找到了一些文件夹。该 字 的文件夹中包含的文件本身,文件
document.xml中 。