テキストを処理するために Word 文書を読み込んで、Java で何かを探しています。Apache POI については知っていますが、現時点では DOCX のサポートは含まれていません。
9494 次
4 に答える
5
フォーマット情報、画像、およびその他すべての凝ったものを必要としない場合、作業はずっと簡単になります。わずか 5 ~ 10 行のコードで十分です。
- DOCX を zip ファイルとして扱います。「document.xml」を含む一連のファイルで構成されています。ZipInputStream を使用して、そのファイルのみを抽出します。(お気に入りの zip ユーティリティを使用して docx を開き、自分の目で確かめてください!)
- SAX パーサーを使用して、ノード body/p/r/t 間のコンテンツを読み取ります。テキストが得られました。
これは、テキストのみが必要な場合にのみ適用されます。
于 2010-03-01T17:04:54.440 に答える
2
apache poiを試してください-doc、docx、xls、xlsx、ppt、pptxを処理できます。
もう1つの製品レベルのソリューションは、サーバー側のシナリオでも使用できるヘッドレスモードのOpenOfficeです。
于 2012-09-03T10:55:36.570 に答える
1
docx4j を試すことができます。http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.javaを参照してください。
于 2010-08-31T03:10:25.510 に答える