python - PythonでのDocxコンテンツとフォーマットの抽出

Question

docx フォルダーを解析し、特定の単語が太字であるかどうかに基づいて特定の要素を取得しようとしています。これが文書内のテキストである場合:

フー：こんにちは

ブー： 何とか何とか

•何とか

チュー：こんにちは

行ごとにスキャンし、太字の単語の後のすべてのテキストを次の太字の単語まで取りたいと思います。

現在、改行文字に基づいて解析する XML パーサーを使用しています。そのようなメタデータを提供するZipfileまたは個々の行には何も見つかりません。

これを行うことは可能ですか？

score 0 · Accepted Answer

XML ドキュメントを解析するのではなく、docx ファイルの読み取りをサポートする高レベルのライブラリを使用します。

このタスクを参照するライブラリの 1 つがpython-docxです。

Jython を使用している場合は、Apache POI HWPFも別のオプションです。

1 に答える 1