-1

独自の検索エンジンを作成するつもりです。

検索エンジンやクローラーなどを調べていたら、Nutchと迷ってしまいました。

Nutch が何かわかりません。Lucene (間違っていたら訂正してください) や検索エンジンを作成するためのフレームワーク (例: google、bing、yahoo) のような内部使用のためですか?

4

2 に答える 2

2

Nutch はフル機能の検索エンジンです。外部 Web サイトをクロールでき、robots.txt を理解して尊重します。

http://nutch.apache.org/about.html

概要 Nutch は、オープンソースの Web 検索ソフトウェアです。これは Lucene と Solr に基づいて構築されており、クローラー、リンクグラフ データベース、HTML やその他のドキュメント形式のパーサーなどの Web 固有のものを追加しています。

Nutch は 1 台のマシンで実行できますが、Hadoop クラスターで実行することで多くの強みを得ることができます

システムは、プラグイン メカニズムを使用して拡張できます (たとえば、他のドキュメント形式を解析できます)。

Nutch の詳細については、Nutch wiki を参照してください。

于 2010-12-16T19:25:51.073 に答える
0

Nutch は、検索を実行するための Java サーブレットを備えた、既製の構成可能な Web クローラーです。これをプロジェクトとして実行したい場合、検索を入力して結果を表示するためのページを作成するだけなので、Nutch はおそらく多すぎるでしょう。

于 2010-12-16T19:32:20.780 に答える