“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

301 参照

search-engine - Nutch とは何ですか?

独自の検索エンジンを作成するつもりです。

検索エンジンやクローラーなどを調べていたら、Nutchと迷ってしまいました。

Nutch が何かわかりません。Lucene (間違っていたら訂正してください) や検索エンジンを作成するためのフレームワーク (例: google、bing、yahoo) のような内部使用のためですか?

search-engine nutch

2010-12-16T19:21:34.913

0 投票する

2 に答える

579 参照

java - 空のナッチクロールリスト

EclipseでNutchを使用してクロールを実行しようとしています。

urlsというファイルを使用していますが、このファイルには

http://www.google.com/

ただし、プロジェクトを実行すると、Generatorクラスは次のように通知します。

「フェッチ、終了のために選択された0レコード」

この問題を解決するにはどうすればよいですか？

私はこれらのドキュメントに従いました：

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

どんな助けでも大歓迎です。

2010-12-18T19:51:28.860

0 投票する

0 に答える

1031 参照

java - Nutchを使用して写真をダウンロードするにはどうすればよいですか？

Nutch（Eclipseで）を使用して写真をダウンロードするにはどうすればよいですか？

java eclipse image download nutch

2010-12-18T19:53:04.867

0 投票する

2 に答える

347 参照

java - これらの nutch コマンドに関連付けられている Java クラスは何ですか?

一緒にバッチ処理した次のコマンドがあります。Nutch を実行し、結果を Solr に送信します。これらは、プログラムで実行するために使用したいJavaメソッドに一致することを読みました。

これらはどの Java クラスに一致しますか?

ありがとう

java solr nutch

2010-12-22T16:01:11.600

0 投票する

3 に答える

916 参照

cassandra - ウェブクロール、ruby、python、cassandra

Webをクロールして、100万件のユーザー名または電子メールのレコードをデータベースに挿入するスクリプトを作成する必要があります。スクリプトは、python、ruby、phpなどの任意のタイプにすることができます。

可能かどうか教えてください。可能であれば、スクリプトの作成方法についての情報を提供してください。

ありがとう

cassandra web-crawler nutch gora

2010-12-27T09:16:29.693

0 投票する

1 に答える

218 参照

solr - SOLR & NUTCH でサブエンジンを作るには?

こんにちは、私はニュースサブエンジンと画像サブエンジンとビデオサブエンジンを含むグーグルのようなテンプレートを使って検索エンジンを作っています.SOLRとNUTCHでサブエンジンを作る方法について疑問に思っていました.どうすればいいのかわからないので、アドバイスお願いします。

solr nutch

2010-12-29T14:58:51.450

0 投票する

2 に答える

1234 参照

いくつかのポータルのコンテンツを追跡し、毎晩変更をチェックする必要があるシステムを開発しています (たとえば、日中に追加された新しいサイトをダウンロードしてインデックスを作成するなど)。このポータルのコンテンツは検索用にインデックス化されます。問題は、このポータルの再クロールにあります。ポータルの最初のクロールに非常に時間がかかり (ポータルの例: www.onet.pl、www.bankier.pl、www.gazeta.pl) 、より速く再クロールしたい (できるだけ早く）たとえば、変更の日付を確認しますが、wgetを使用しましたwww.bankier.pl をダウンロードしますが、最終変更ヘッダーがないと不平を言います。非常に多くのサイトを再クロールする方法はありますか? Nutch も使用してみましたが、re-clawing のスクリプトが正しく動作しないようです。または、このヘッダー (最終変更) にも依存しています。たぶん、新しいサイトを追加して既にダウンロードしたサイトを更新できるツール、クローラー（Nutchなど）があるでしょうか??

敬具、ヴォイテク

wget web-crawler nutch

2011-01-06T18:46:17.403

0 投票する

1 に答える

462 参照

hadoop - HDFS 内のメタデータの書き込み

Nutch を使用してイントラネットサイトをクロールしています。

インデックス作成フェーズで xml ファイルのメタデータを抽出し (indexer.java のコードを変更しました)、ローカルモードで実行すると、必要なメタデータが得られました。

今、クラスターモードで Nutch を使用することを考えました (hadoop を使用)。クラスターで nutch をクロールすると、インデックスを取得できますが、ローカルモードで使用したメタデータは取得できません (Java の IO クラスを使用してメタをファイルに書き込みます)。Hadoop の場合、これを Hadoop ファイルシステム io クラスに変更しました。それでも、メタを取得できません。

解決策はありますか、それとも何か不足していますか?

よろしくお願いします、ゲオ

hadoop nutch indexer

2011-01-07T11:52:21.030

0 投票する

2 に答える

3225 参照

django - Djangoを使った検索エンジン構築の提案

Webクロールは初めてです。クローラーが Rapidshare リンクが見つかった URL を含む Rapidshare リンクを保存する検索エンジンを構築します...

つまり、次のような Web サイトを構築します。filestube.com

いくつか検索した結果、Scrapyが Django で動作することがわかりました。Djangoとのnutch統合について見つけようとしましたが、何も見つかりませんでした

この種のウェブサイトを構築するための提案をいただければ幸いです...特にクローラー

django search-engine nutch scrapy

2011-01-07T15:05:31.787

0 投票する

3 に答える

2050 参照

java - MySQL を Apache nutch に接続する

初めてApache Nutchを使用しています。クロール後にデータを MySQL データベースに保存するにはどうすればよいですか? 他の Web アプリケーションで簡単にデータを使用できるようにしたい。

関連する質問を見つけましたが、コード ID のどの部分が MySQL コネクタに置き換えられるのか明確にわかりません。短いコード例を手伝ってください。

java mysql nutch

2011-01-12T20:36:23.663

問題タブ [nutch]

search-engine - Nutch とは何ですか?

java - 空のナッチクロールリスト

java - Nutchを使用して写真をダウンロードするにはどうすればよいですか？

java - これらの nutch コマンドに関連付けられている Java クラスは何ですか?

cassandra - ウェブクロール、ruby、python、cassandra

solr - SOLR & NUTCH でサブエンジンを作るには?

wget - ウェブサイトの高速再クロール

hadoop - HDFS 内のメタデータの書き込み

django - Djangoを使った検索エンジン構築の提案

java - MySQL を Apache nutch に接続する

問題タブ [nutch]

Reference