問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
9487 参照

search-engine - Nutchの代替Webクローラー

限られた数のWebサイトにインデックスを付ける専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は次のとおりです。

  • NutchをWebクローラーとして使用し、
  • Solrを検索エンジンとして使用し、
  • フロントエンドとサイトロジックはWicketでコーディングされています。

問題は、Nutchが非常に複雑であり、詳細なドキュメント(本、最近のチュートリアルなど)が存在しないにもかかわらず、カスタマイズするのに大きなソフトウェアであることに気付くということです。

今の質問:

  1. サイトの穴のアイデアについて建設的な批判はありますか?
  2. (サイトのクロール部分として)Nutchに代わる優れたシンプルな方法はありますか?

ありがとう

0 投票する
1 に答える
598 参照

nutch - ナッチクローラーをクロールさせる方法

ウィキを使用している間、私は少し疑問があります。crawl-urlfilter.txt

そして、URLフォルダとURLのリストを作成するように求められます...

crawl-urlfilter.txtURLのリスト内およびリスト内にすべてのリンクを作成する必要がありますか...

0 投票する
1 に答える
128 参照

java - ホスト別検索結果グループの作り方

小さなイントラネット検索を行っています クロールと検索に Nutch を使用しています 次のようなサブドメインを持っています

そして、nutch を使用して値を検索すると、すべてのドメインから検索結果が得られます。サブドメインごとに 1 つの結果が必要です

0 投票する
1 に答える
108 参照

solr - デフォルトのタイトルを上書きするプラグインが必要

カスタム タイトル ファインダーを取得するために、http: //sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html に基づいて Nutch 用のプラグインを作成しようとしています。

これはうまく機能し、抽出されたタイトルを新しいフィールドに保存することは問題ありません。しかし、デフォルトのタイトルの代わりに Solr で使用したいと考えています。問題は、2 つのタイトル フィールドがあるため、Solr が多値フィールドを必要とすることです。

metadata.remove("タイトル");

動作しませんでした。

Nutch によって作成されたデフォルトのタイトルではなく、新しいタイトルを使用したいのです。助言がありますか?

0 投票する
1 に答える
2133 参照

java - Nutch API アドバイス

私は、いくつかの作業を行うために成熟したクローラーが必要なプロジェクトに取り組んでおり、この目的のために Nutch を評価しています。現在のニーズは比較的単純です。データをディスクに保存できるクローラーと、サイトの更新されたリソースのみを再クロールして、既にクロールされた部分をスキップできるクローラーが必要です。コマンドライン経由ではなく、Java で直接 Nutch コードを操作した経験のある人はいますか? 簡単に始めたいと思います。クローラー(または同様のもの)を作成し、最小限の構成で開始します。派手なことは何もありません。これの例、または私が見るべきリソースはありますか? Nutch のドキュメントを読んでいますが、そのほとんどはコマンド ライン、検索、その他に関するものです。インデックスや検索をしなくても、Nutch クローリング モジュールはどれくらい使いやすいですか? どんな助けでも大歓迎です。ありがとう。

0 投票する
5 に答える
4528 参照

java - ナッチの問題:java.lang.NoClassDefFoundError

WindowsマシンでNutchを実行しようとしています。Nutch、Java、Tomcat、Cygwinをインストールしています。Cygwinでcrawlコマンドを実行しようとすると、次のエラーが発生します。

私のJavaは少し錆びていますが、これはCrawlクラスが存在しないことを示しているようです。この場合、どうすればそれを見つけて、システムがその存在を認識していることを確認できますか?

0 投票する
1 に答える
800 参照

lucene - Nutch - Lucene - ページのコンテンツをキャプチャする

Java Nutch を使用していくつかのページをクロールしました。また、Java の Lucene を使用して、インデックス付きドキュメントに対してクエリを実行できるモジュールを作成しました。URL、重量、タイトルなどの Nutch フィールドを作成したことは知っています。しかし、各ページのコンテンツをキャプチャすることに興味があります。Lucene を使用して、nutch でクロールしたことを知るにはどうすればよいですか?

ありがとう

0 投票する
7 に答える
13214 参照

algorithm - Web Cralwerアルゴリズム:深さ?

私はクローラーに取り組んでおり、「リンクの深さ」が何を意味するのかを正確に理解する必要があります。例を挙げてみましょう: http://wiki.apache.org/nutch/NutchTutorial

深さは、クロールする必要があるルートページからのリンクの深さを示します。

それで、私がドメインを持っていてwww.domain.com、たとえば、の深さをクロールしたいとします3-私は何をする必要がありますか?サイトを二分木として表現できれば、問題ないと思います。

0 投票する
2 に答える
448 参照

windows - WindowsでTomcatWebアプリからnutchを実行できません

Nutchクロールを実行するスクリプトを生成するWebアプリがあります。クライアントがWindowsPCでの実行を望んでいることを除けば、すべてが非常にうまく機能しています。彼女がくれたWindowsPCは、Windows 7HomePremiumを実行しています。

クロールスクリプトが起動するときを除いて、ほぼすべてが実行されています。nutch(Hadoopを実行し、奇妙な理由でwhoami)が失敗whoamiするのは、単一の文字列ではなく「ntauthority\system」が返されるためです。エラー:

javax.security.auth.login.LoginException:ログインに失敗しました:whoamiの結果として1つのトークンが必要です:nt Authority \ system

その場合、whoamiが返す名前を変更する方法はありますか?

更新:明確にするために、コマンドラインからスクリプトを実行すると、まったく同じスクリプトが正常に実行されます。問題は、Tomcatがサービスとして実行されるため、Tomcatが生成するスクリプトがこの「ntauthority \ system」ユーザーとして実行されることです。これはwhoami、スペースで区切られた2つの単語ではなく、1つの単語を返すことを明らかに期待しているため、hadoopを混乱させます。 。

0 投票する
1 に答える
1814 参照

google-app-engine - Google App Engine で選択したサイトに対して Web クローラーを実行していますか?

事前に選択されたいくつかの Web サイトのみから情報を抽出するクローラーを作成する必要があります。

これが簡単な仕事であることはわかっていますが、Google App Engine を使用してこれを行うことを考えています。

Nutch でこれをやってみようかな。

それを成し遂げるこの方法はどの程度実現可能ですか?

1) Google インフラストラクチャでクローラーをホストする 2) Nutch + アプリ エンジン - 可能ですか?