5

テキストを処理するために Word 文書を読み込んで、Java で何かを探しています。Apache POI については知っていますが、現時点では DOCX のサポートは含まれていません。

4

4 に答える 4

5

フォーマット情報、画像、およびその他すべての凝ったものを必要としない場合、作業はずっと簡単になります。わずか 5 ~ 10 行のコードで十分です。

  1. DOCX を zip ファイルとして扱います。「document.xml」を含む一連のファイルで構成されています。ZipInputStream を使用して、そのファイルのみを抽出します。(お気に入りの zip ユーティリティを使用して docx を開き、自分の目で確かめてください!)
  2. SAX パーサーを使用して、ノード body/p/r/t 間のコンテンツを読み取ります。テキストが得られました。

これは、テキストのみが必要な場合にのみ適用されます。

于 2010-03-01T17:04:54.440 に答える
3

いくつかのグーグルでOpenXML4Jを見つけました。これで問題が解決する場合があります。コミュニティの誰かがより良い洞察を持っていると確信するまで、私はこれを使用していません.

注:これは重複した質問です。これには解決策と少しの議論があります。質問へのリンク。

于 2010-02-15T04:51:31.963 に答える
2

apache poiを試してください-doc、docx、xls、xlsx、ppt、pptxを処理できます。

もう1つの製品レベルのソリューションは、サーバー側のシナリオでも使用できるヘッドレスモードのOpenOfficeです。

于 2012-09-03T10:55:36.570 に答える
1

docx4j を試すことができます。http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.javaを参照してください。

于 2010-08-31T03:10:25.510 に答える