1

私は素晴らしい Apache Tika ライブラリでファイルをパースします。独自のパーサーでメタタグを抽出し、タグからのみコンテンツ<body>を HTML として取得し、データベースに保存したいと考えています。

私はこれを何時間も何日も試しました:-(が、解決策が見つかりません:

  • ToHTMLContentHandler -tag の後に を使用すると、<body>-tag のない無効な名前空間で例外が発生します<html>
  • BodyContentHandlerHTML タグなしで本文テキストを返すだけです。
  • はHTML を取得tika-appするために a を使用しているようTransformerHandlerです (この種のハンドラーについては聞いたことがありません)。これを使用して、タグから HTML を取得し、<body>メタタグを自分で解析できますか? これは、を使用するよりも良い方法ToHTMLContentHandlerですか?
4

1 に答える 1

2

次のリンクが少し役立つかどうかを確認してください。

Apache Tikaを使用したコンテンツ検出、メタデータ、およびコンテンツ抽出

ApacheTikaを使用したHTMLの解析

于 2013-03-19T09:47:34.830 に答える