java - メタタグを解析し、Tika を使用して本文から HTML コンテンツを取得する

Question

私は素晴らしい Apache Tika ライブラリでファイルをパースします。独自のパーサーでメタタグを抽出し、タグからのみコンテンツ<body>を HTML として取得し、データベースに保存したいと考えています。

私はこれを何時間も何日も試しました:-(が、解決策が見つかりません:

ToHTMLContentHandler -tag の後にを使用すると、<body>-tag のない無効な名前空間で例外が発生します<html>。
BodyContentHandlerHTML タグなしで本文テキストを返すだけです。
はHTML を取得tika-appするために a を使用しているようTransformerHandlerです (この種のハンドラーについては聞いたことがありません)。これを使用して、タグから HTML を取得し、<body>メタタグを自分で解析できますか? これは、を使用するよりも良い方法ToHTMLContentHandlerですか?

score 2 · Accepted Answer

次のリンクが少し役立つかどうかを確認してください。

java - メタ タグを解析し、Tika を使用して本文から HTML コンテンツを取得する