問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - 速度に最適な Web グラフ クローラー?
この 1 か月間、私は開始した Web クロール プロジェクトに Scrapy を使用してきました。
このプロジェクトでは、ホームページから到達可能な単一のドメイン名に含まれるすべての Web ページの完全なドキュメント コンテンツを取得します。Scrapy を使用してこれを記述するのは非常に簡単でしたが、単純に実行速度が遅すぎます。2 ~ 3 日で 100,000 ページしかプルダウンできません。
Scrapy はこの種のクロールには適していないという私の最初の考えが明らかになりつつあることに気付きました。
より良いパフォーマンスを期待して、Nutch とMetabotに照準を合わせ始めました。クロール中に保存する必要がある唯一のデータは、Web ページの完全なコンテンツと、できればページ上のすべてのリンクです (ただし、後処理で行うこともできます)。
高速で多くの並列リクエストを使用するクローラーを探しています。
search - solr 検索エンジン用の 3 つのサーバーを使用したアーキテクチャ
solr で検索エンジンを構築し、クローラーとして Nutch を実行します。約 1300 万のドキュメントのインデックスを作成する必要があります。このジョブには 3 つのサーバーがあります。
- 4 コア Xeon 3Ghz、20Gb RAM、1.5Tb sata
- 2*4 コア Xeon 3Ghz、16Gb RAM、500Gb IDE
- 2*4 コア Xeon 3Ghz、16Gb RAM、500Gb IDE
1 台のサーバーをクロールとインデックス作成のマスターとして使用し、他の 2 台を検索用のスレーブとして使用するか、1 台を検索用に使用し、別の 2 台を 2 つのシャードのインデックス作成用に使用できます。どのアーキテクチャを推奨できますか? シャーディングを使用する必要があるか、シャードの量、およびどのサーバーを何に使用する必要がありますか?
solr - nutch+solr を使用して、ドキュメント内の文字列を識別しますか?
文字列 (会社名) を識別し、これらの文字列を Solr での検索とファセットに使用する検索ソリューションを検討しています。
私は Nutch と Solr を初めて使用するので、Nutch と Solr のどちらで行うのが最適なのだろうかと思います。解決策の 1 つは、問題の文字列を識別するパーサーを Nutch で生成し、会社名にインデックスを付け、後で Solr 値にマッピングすることです。方法はわかりませんが、これはSolr内でテキストから直接行うこともできると思いますか?
この文字列識別を Nutch または Solr で行うことは理にかなっていますか? Solr または Nutch には、ここで役立つ機能がありますか?
ありがとう。
nutch - Nutch : プラグインで現在のクロール深度を取得する
Nutch 用の独自の HTML パーサー プラグインを作成したいと考えています。特定の xpath にのみ該当するアウトリンクを生成することで、集中的なクロールを行っています。私の使用例では、現在のクロールの深さに応じて、html ページからさまざまなデータを取得したいと考えています。したがって、解析している各コンテンツの HtmlParser プラグインの現在の深さを知る必要があります。
Nutchで可能ですか?CrawlDatum には、crawl_depth 情報がありません。情報のマップを別のデータ構造にすることを考えていました。誰かがより良いアイデアを持っていますか?
ありがとう
java - MapReduce Nutch チュートリアル
mapreduce プログラムを Nutch に書き込む方法を説明するチュートリアルへのポインタを誰か教えてくれませんか?
ありがとうございました。
solr - solrindex ナットスキーマを solr にマッピングする方法
クローラーがピックアップしてインデックス化するいくつかのカスタム ナット フィールドがあります。これをsolrindex経由で(マッピングファイルを使用して)solrに転送するとうまくいきます。ログはすべてが正常であることを示していますが、solr 環境のインデックスにはこれが反映されていません。どんな助けでも大歓迎です、
ありがとう、アショク
solr - apach solr (trunk) での apache nutch (リリース 1.2) の統合による問題 - solr 例外が発生しました
solrindex-mapping.xml
(nutch)を構成し、solrも構成schema.xml
しsolrconfig.xml
ました。どちらも1回の実行でうまく機能しますが、を使用するbin/nutch solrindex ...
と例外が発生します:
すべての構成id
ファイルで構成しました。itは solr のtoと atにsolrindex-mapping.xml
マップし、id も構成しました。何が悪いのかわからない。いくつかのログ出力を に追加します。読み取りフィールドが SolrInputDocument に追加されるときに、これらの行に 1 つのログ情報を追加します。ビルドして実行した後の結果は次のとおりです。url
id
schema.xml
org.apache.nutch.indexer.solr.SolrWriter.java
3 つの読み取りフィールド O_o のみが表示されます。私の設定に何か問題があるかどうか誰かが知っていますか? 私は現在学士論文を書いているので、非常に速く実行する必要があります:/ (ローカルネットワークでの異種データソースの情報統合について)
よろしく
マルセル=)
ログの残りの部分:
java - セグメント*ファイルが見つかりません
luceneインデックス(Nutchを使用して複数のWebページをクロールして作成)にアクセスする必要がありますが、上記のエラーが発生します:
私はグーグルで検索しましたが、与えられた理由は要件と一致していませんでした。ファイル(パス)が表示されているという事実は、おそらくディレクトリが空ではないことを意味します。
ありがとう
java - ナット クローラーの相対 URL の問題
標準の html パーサー プラグインが相対 URL を処理する方法で問題を経験した人はいますか? http://xxxx/asp/list_books.asp?id_f=11327というサイトがあり 、href が '?id_r=442&id=41&order=' に設定されたリンクを参照すると、ブラウザーは自然に http://に移動します。 xxxx/asp/list_books.asp?id_r=442&id=41&order=
ただし、アウトリンクがページから解析されると、リンクは http://xxxx/asp/?id_r=442&id=41&order=になります。
もちろん壊れています。では、list_books.asp がなくなったのはなぜでしょうか。
full-text-search - ナットクローラー - ホストごとの最大インリンク数を設定する方法
ホストごとにインデックスするページの最大数を設定するにはどうすればよいですか? サイトの 100 万ページすべてをインデックスに登録するのではなく、見つかった最初の 100000 ページのみをインデックスに登録したい。