5

テキストと画像を含む Word .doc ファイルを Java から読み取る必要があります。画像とテキストを認識し、それらを 2 つのファイルに分ける必要があります。

「Apache POI」という言葉を最近耳にしました。Apache POI を使用して Word .doc ファイルを読み取るにはどうすればよいですか?

4

2 に答える 2

1

無料ではありません (または安価です!) が、Aspose.Wordsはこれを実行できるはずです。評価版をダウンロードすると、小さなファイルで遊ぶことができます。

宛先ファイルもドキュメントである必要がありますか? ドキュメントを Office で開き、HTML として保存できます。その後、分離は簡単になります。RTF も実行可能なオプションですが、頭の中で優れた RTF パーサーをお勧めすることはできません。

編集して言う:私は別の可能な解決策を思い出しました:ジェイコブですが、同じマシンで実行されているOfficeのインスタンスが必要です。これは Java COM Bridge の略で、Office の COM ライブラリを呼び出してドキュメントを操作できます。私はそれが聞こえるかもしれないほど怖くないと確信しています!

于 2009-02-28T07:34:22.830 に答える