私は素晴らしい Apache Tika ライブラリでファイルをパースします。独自のパーサーでメタタグを抽出し、タグからのみコンテンツ<body>を HTML として取得し、データベースに保存したいと考えています。
私はこれを何時間も何日も試しました:-(が、解決策が見つかりません:
ToHTMLContentHandler-tag の後に を使用すると、<body>-tag のない無効な名前空間で例外が発生します<html>。BodyContentHandlerHTML タグなしで本文テキストを返すだけです。- はHTML を取得
tika-appするために a を使用しているようTransformerHandlerです (この種のハンドラーについては聞いたことがありません)。これを使用して、タグから HTML を取得し、<body>メタタグを自分で解析できますか? これは、を使用するよりも良い方法ToHTMLContentHandlerですか?