1

Apache Tika を使用して Web ページのテキスト コンテンツをダウンロードする Java Web クローラーをプログラムしたいと考えていますが、Apache プロジェクトを使用する初心者であり、Tika をプログラムに正確に統合する方法を明確にする決定的なソースが見つかりませんでした。インターネットから収集したものから、コマンド ラインで Maven を使用して Tika を構築しましたが、Java プログラムでパーサーなどの Tika クラス (?) を使用するためにここからどこに行くべきかわかりません。それが違いを生む場合、私はEclipseを使用しています-Eclipse用のMavenプラグインもインストールしましたが、それをどうするか正確にはわかりません...「インポート...」行が必要ですか?「初心者」の質問で申し訳ありませんが、使用する Tika を準備するための段階的なガイドをいただければ幸いです。

4

1 に答える 1

6

まず最初に、Tika をプロジェクトに組み込む方法について説明しているApache Tika 入門ガイドをお読みください。(これは、サードパーティの jar を自分のプロジェクトに含めるための基本的な知識があることを前提としています。そうでない場合は、チュートリアルを読む必要があります)

プロジェクトで Tika を使い始める最も簡単な方法は、Tika Facade クラスを使用することです。これにより、さまざまなソースからの検出、プレーン テキスト文字列への解析、およびリーダーを介した xhtml への解析に使用できる単一のクラスが提供されます。すべての基本はそこにあります。

より高度な使い方については、パーサー API ページコンテンツ検出ページに記載されている情報に従うことをお勧めします。AutoDetectParser を使用した解析に関する Tika Examples に従うこともできます。これは、おそらく必要なことを行うはずです。それ以外の場合は、説明付きの Tika の例の注釈付きリストを参照して、開始方法の良いアイデアを得ることができます!

于 2013-07-24T08:35:27.160 に答える