独自の検索エンジンを作成するつもりです。
検索エンジンやクローラーなどを調べていたら、Nutchと迷ってしまいました。
Nutch が何かわかりません。Lucene (間違っていたら訂正してください) や検索エンジンを作成するためのフレームワーク (例: google、bing、yahoo) のような内部使用のためですか?
独自の検索エンジンを作成するつもりです。
検索エンジンやクローラーなどを調べていたら、Nutchと迷ってしまいました。
Nutch が何かわかりません。Lucene (間違っていたら訂正してください) や検索エンジンを作成するためのフレームワーク (例: google、bing、yahoo) のような内部使用のためですか?
Nutch はフル機能の検索エンジンです。外部 Web サイトをクロールでき、robots.txt を理解して尊重します。
http://nutch.apache.org/about.html
概要 Nutch は、オープンソースの Web 検索ソフトウェアです。これは Lucene と Solr に基づいて構築されており、クローラー、リンクグラフ データベース、HTML やその他のドキュメント形式のパーサーなどの Web 固有のものを追加しています。
Nutch は 1 台のマシンで実行できますが、Hadoop クラスターで実行することで多くの強みを得ることができます
システムは、プラグイン メカニズムを使用して拡張できます (たとえば、他のドキュメント形式を解析できます)。
Nutch の詳細については、Nutch wiki を参照してください。
Nutch は、検索を実行するための Java サーブレットを備えた、既製の構成可能な Web クローラーです。これをプロジェクトとして実行したい場合、検索を入力して結果を表示するためのページを作成するだけなので、Nutch はおそらく多すぎるでしょう。