java - Apache tika: 結果文字列の余分な改行を削除する

Question

私はhtmlファイルを持っています:

<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;">
<div>Test message.</div>
<div>&nbsp;</div>
<div>More content here...</div>
<div>&nbsp;</div>
<div>Best regards,</div>
<div>Mr. Crowley</div></div></body></html>

Apache Tika を使用して上記のファイルの内容を取得しようとしています...

final InputStream input = new FileInputStream("file.html");
final ContentHandler handler = new BodyContentHandler();
final Metadata metadata = new Metadata();

final HtmlParser htmlParser = new HtmlParser();
htmlParser.parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
System.out.println(plainText);

...そして、余分な改行を除いてすべて問題ありません:

Test message.

 

More content here...

 

Best regards,

Mr. Crowley
<and 3 empty lines here>

この動作を回避することは可能ですか? より期待される結果を得ることが可能ですか:

Test message.
 
More content here...
 
Best regards,
Mr. Crowley

?

次のようなコード構造

plainText = plainText.replaceAll("(\n)+", "\n");

残念ながら私にはここでは不可能です。また、HTML ファイルの構造を変更することもできません。

score 6 · Accepted Answer

1 つの解決策は、これらの新しい行を書き込まないカスタム ContentHandler を実装することです (元のドキュメントの新しい行は保持されます)。

public class OriginalBodyContentHandler extends BodyContentHandler {
    @Override
    public void ignorableWhitespace(char[] ch, int start, int length)
            throws SAXException {
        // Not writing extra new lines generated by XHTMLContentHandler.
    }
}

java - Apache tika: 結果文字列の余分な改行を削除する

1 に答える 1

Related

Reference