python - Python で docx からテキストを取得する

翻译自：https://stackoverflow.com/questions/12545498 2012-09-22T16:15:53.770

1484 次

Pythonでdocxファイルからテキストを取得するにはどうすればよいですか? できれば、これはそれを単純な文字列にインポートします。明らかに、元のファイルのフォーマットは無視できます。

docx ファイル (テキストがとして保存されるフォルダー) の構造は理解していますがdocument.xml、そのフォルダーを手動で開いたり、ファイルを抽出したり、段落タグを抽出したりすることなく、テキストを抽出する簡単な方法が欲しいです。

Python Docxを試しました (この古いスタックオーバーフローの質問に従って) が、毎回エラーが発生します:

import docx as dx
document = dx.opendocx('files/file.docx')

Traceback (most recent call last):
  File "concord.py", line 2, in <module>
    document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'

python - Python で docx からテキストを取得する

0 に答える 0

Related

Reference