java - Java で Microsoft Word ドキュメントをプレーンテキスト (DOC、DOCX) に読み込む

Question

テキストを処理するために Word 文書を読み込んで、Java で何かを探しています。Apache POI については知っていますが、現時点では DOCX のサポートは含まれていません。

score 5 · Accepted Answer

フォーマット情報、画像、およびその他すべての凝ったものを必要としない場合、作業はずっと簡単になります。わずか 5 ～ 10 行のコードで十分です。

DOCX を zip ファイルとして扱います。「document.xml」を含む一連のファイルで構成されています。ZipInputStream を使用して、そのファイルのみを抽出します。(お気に入りの zip ユーティリティを使用して docx を開き、自分の目で確かめてください!)
SAX パーサーを使用して、ノード body/p/r/t 間のコンテンツを読み取ります。テキストが得られました。

これは、テキストのみが必要な場合にのみ適用されます。

score 3 · Accepted Answer

いくつかのグーグルでOpenXML4Jを見つけました。これで問題が解決する場合があります。コミュニティの誰かがより良い洞察を持っていると確信するまで、私はこれを使用していません.

注：これは重複した質問です。これには解決策と少しの議論があります。質問へのリンク。

score 2 · Accepted Answer

apache poiを試してください-doc、docx、xls、xlsx、ppt、pptxを処理できます。

もう1つの製品レベルのソリューションは、サーバー側のシナリオでも使用できるヘッドレスモードのOpenOfficeです。

score 1 · Accepted Answer

java - Java で Microsoft Word ドキュメントをプレーン テキスト (DOC、DOCX) に読み込む