検証ツールを作成したい。
ファイルの内容を検索して比較するために、Python で .doc/.docx ドキュメントを読むのを手伝ってくれる人はいますか?
はい、可能です。LibreOffice (少なくとも) には、ファイルを変換するためのコマンド ライン オプションがあります。それを使用して、ファイルをテキストに変換します。次に、通常の操作に従って、テキスト ファイルを Python に読み込みます。
これはLibreOffice 4.2 / Linuxでうまくいきました:
soffice --headless --convert-to txt:Text /path_to/document_to_convert.doc
いくつかの方法を試しました (odt2txt、antiword、zipfile、lpod、uno など)。上記の soffice コマンドは、エラーなく簡単に機能した最初のコマンドです。ask.libreoffice.orgでのフィルターの使用に関するこの質問が役に立ちました。soffice
PyWin32 を使用して、COM 経由で Word にアクセスすることもできますが、これは少し見苦しくなります。また、IronPython は .NET で構築されており、Office へのフックが優れている可能性があるため、確認することもできます。
以下も参照してください。