問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - Nutch とは何ですか?
独自の検索エンジンを作成するつもりです。
検索エンジンやクローラーなどを調べていたら、Nutchと迷ってしまいました。
Nutch が何かわかりません。Lucene (間違っていたら訂正してください) や検索エンジンを作成するためのフレームワーク (例: google、bing、yahoo) のような内部使用のためですか?
java - 空のナッチクロールリスト
EclipseでNutchを使用してクロールを実行しようとしています。
urlsというファイルを使用していますが、このファイルには
ただし、プロジェクトを実行すると、Generatorクラスは次のように通知します。
「フェッチ、終了のために選択された0レコード」
この問題を解決するにはどうすればよいですか?
私はこれらのドキュメントに従いました:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
どんな助けでも大歓迎です。
java - Nutchを使用して写真をダウンロードするにはどうすればよいですか?
Nutch(Eclipseで)を使用して写真をダウンロードするにはどうすればよいですか?
java - これらの nutch コマンドに関連付けられている Java クラスは何ですか?
一緒にバッチ処理した次のコマンドがあります。Nutch を実行し、結果を Solr に送信します。これらは、プログラムで実行するために使用したいJavaメソッドに一致することを読みました。
これらはどの Java クラスに一致しますか?
ありがとう
cassandra - ウェブクロール、ruby、python、cassandra
Webをクロールして、100万件のユーザー名または電子メールのレコードをデータベースに挿入するスクリプトを作成する必要があります。スクリプトは、python、ruby、phpなどの任意のタイプにすることができます。
可能かどうか教えてください。可能であれば、スクリプトの作成方法についての情報を提供してください。
ありがとう
solr - SOLR & NUTCH でサブエンジンを作るには?
こんにちは、私はニュースサブエンジンと画像サブエンジンとビデオサブエンジンを含むグーグルのようなテンプレートを使って検索エンジンを作っています.SOLRとNUTCHでサブエンジンを作る方法について疑問に思っていました.どうすればいいのかわからないので、アドバイスお願いします。
wget - ウェブサイトの高速再クロール
いくつかのポータルのコンテンツを追跡し、毎晩変更をチェックする必要があるシステムを開発しています (たとえば、日中に追加された新しいサイトをダウンロードしてインデックスを作成するなど)。このポータルのコンテンツは検索用にインデックス化されます。問題は、このポータルの再クロールにあります。ポータルの最初のクロールに非常に時間がかかり (ポータルの例: www.onet.pl、www.bankier.pl、www.gazeta.pl) 、より速く再クロールしたい (できるだけ早く)たとえば、変更の日付を確認しますが、wgetを使用しましたwww.bankier.pl をダウンロードしますが、最終変更ヘッダーがないと不平を言います。非常に多くのサイトを再クロールする方法はありますか? Nutch も使用してみましたが、re-clawing のスクリプトが正しく動作しないようです。または、このヘッダー (最終変更) にも依存しています。たぶん、新しいサイトを追加して既にダウンロードしたサイトを更新できるツール、クローラー(Nutchなど)があるでしょうか??
敬具、ヴォイテク
hadoop - HDFS 内のメタデータの書き込み
Nutch を使用してイントラネット サイトをクロールしています。
インデックス作成フェーズで xml ファイルのメタ データを抽出し (indexer.java のコードを変更しました)、ローカル モードで実行すると、必要なメタデータが得られました。
今、クラスター モードで Nutch を使用することを考えました (hadoop を使用)。クラスターで nutch をクロールすると、インデックスを取得できますが、ローカル モードで使用したメタデータは取得できません (Java の IO クラスを使用してメタをファイルに書き込みます)。Hadoop の場合、これを Hadoop ファイル システム io クラスに変更しました。それでも、メタを取得できません。
解決策はありますか、それとも何か不足していますか?
よろしくお願いします、ゲオ
django - Djangoを使った検索エンジン構築の提案
Webクロールは初めてです。クローラーが Rapidshare リンクが見つかった URL を含む Rapidshare リンクを保存する検索エンジンを構築します...
つまり、次のような Web サイトを構築します。filestube.com
いくつか検索した結果、Scrapyが Django で動作することがわかりました。Djangoとのnutch統合について見つけようとしましたが、何も見つかりませんでした
この種のウェブサイトを構築するための提案をいただければ幸いです...特にクローラー
java - MySQL を Apache nutch に接続する
初めてApache Nutchを使用しています。クロール後にデータを MySQL データベースに保存するにはどうすればよいですか? 他の Web アプリケーションで簡単にデータを使用できるようにしたい。
関連する質問を見つけましたが、コード ID のどの部分が MySQL コネクタに置き換えられるのか明確にわかりません。短いコード例を手伝ってください。