私は素晴らしい Apache Tika ライブラリでファイルをパースします。独自のパーサーでメタタグを抽出し、タグからのみコンテンツ<body>
を HTML として取得し、データベースに保存したいと考えています。
私はこれを何時間も何日も試しました:-(が、解決策が見つかりません:
ToHTMLContentHandler
-tag の後に を使用すると、<body>
-tag のない無効な名前空間で例外が発生します<html>
。BodyContentHandler
HTML タグなしで本文テキストを返すだけです。- はHTML を取得
tika-app
するために a を使用しているようTransformerHandler
です (この種のハンドラーについては聞いたことがありません)。これを使用して、タグから HTML を取得し、<body>
メタタグを自分で解析できますか? これは、を使用するよりも良い方法ToHTMLContentHandler
ですか?