Pythonでdocxファイルからテキストを取得するにはどうすればよいですか? できれば、これはそれを単純な文字列にインポートします。明らかに、元のファイルのフォーマットは無視できます。
docx ファイル (テキストが として保存されるフォルダー) の構造は理解していますがdocument.xml
、そのフォルダーを手動で開いたり、ファイルを抽出したり、段落タグを抽出したりすることなく、テキストを抽出する簡単な方法が欲しいです。
Python Docxを試しました (この古いスタックオーバーフローの質問に従って) が、毎回エラーが発生します:
import docx as dx
document = dx.opendocx('files/file.docx')
Traceback (most recent call last):
File "concord.py", line 2, in <module>
document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'