0

Pythonでdocxファイルからテキストを取得するにはどうすればよいですか? できれば、これはそれを単純な文字列にインポートします。明らかに、元のファイルのフォーマットは無視できます。

docx ファイル (テキストが として保存されるフォルダー) の構造は理解していますがdocument.xml、そのフォルダーを手動で開いたり、ファイルを抽出したり、段落タグを抽出したりすることなく、テキストを抽出する簡単な方法が欲しいです。

Python Docxを試しました (この古いスタックオーバーフローの質問に従って) が、毎回エラーが発生します:

import docx as dx
document = dx.opendocx('files/file.docx')

Traceback (most recent call last):
  File "concord.py", line 2, in <module>
    document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'
4

0 に答える 0