0


私が探しているのは、Wordファイル、pdfsの形式を変換できるテキスト変換ライブラリです

ただし、テキスト変換後に書式設定構造を保持する テーブル構造が失われ、ドキュメントが歪む

例えば

name emailid phonenumber はテーブルにあり、行を形成します


変換後、これらはname
emailid
phonenumberのように別々の行に なります

これらを name emailid phonenumber として取得したい

現在、私はApache tikkaを使用しており、Apache poiを使用しています。これをどのように達成できますか

はいの場合、要素ごとにmswordドキュメントの要素を解析できますか?例を共有してください

よろしく

ラジャト

4

1 に答える 1

2

APACHE POI と pdf PDF READを使用して、.doc .dox のコンテンツを読むことができます。

次に、そのコンテンツをテキストファイルに書き込むことができます

于 2012-07-09T11:50:49.973 に答える