14

2009 年 9 月 28 日、Apache POI プロジェクトはバージョン 3.5 をリリースしました。このバージョンは、Office 2007 で導入された DOCX や XLSX などの OOXML 形式を公式にサポートしています。

スタイルやフォーマットを無視して、DOCX ファイルのコンテンツをプレーン テキストで抽出するためのコード サンプルを提供してください。

新しい OOXML サポートをカバーする Apache POI の例を見つけることができなかったので、これを尋ねています。

4

2 に答える 2

21

これは私のために働いた。必要なjar(xmlbeansのアップグレードなど)を必ず追加してください

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}
于 2009-10-22T18:49:09.783 に答える