“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

9487 参照

search-engine - Nutchの代替Webクローラー

限られた数のWebサイトにインデックスを付ける専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は次のとおりです。

NutchをWebクローラーとして使用し、
Solrを検索エンジンとして使用し、
フロントエンドとサイトロジックはWicketでコーディングされています。

問題は、Nutchが非常に複雑であり、詳細なドキュメント（本、最近のチュートリアルなど）が存在しないにもかかわらず、カスタマイズするのに大きなソフトウェアであることに気付くということです。

今の質問：

サイトの穴のアイデアについて建設的な批判はありますか？
（サイトのクロール部分として）Nutchに代わる優れたシンプルな方法はありますか？

ありがとう

2010-11-24T17:24:06.317

0 投票する

1 に答える

598 参照

nutch - ナッチクローラーをクロールさせる方法

ウィキを使用している間、私は少し疑問があります。crawl-urlfilter.txt

そして、URLフォルダとURLのリストを作成するように求められます...

crawl-urlfilter.txtURLのリスト内およびリスト内にすべてのリンクを作成する必要がありますか...

nutch

2010-11-27T09:58:50.883

0 投票する

1 に答える

128 参照

java - ホスト別検索結果グループの作り方

小さなイントラネット検索を行っていますクロールと検索に Nutch を使用しています次のようなサブドメインを持っています

そして、nutch を使用して値を検索すると、すべてのドメインから検索結果が得られます。サブドメインごとに 1 つの結果が必要です

java nutch

2010-11-27T13:44:29.787

0 投票する

1 に答える

108 参照

solr - デフォルトのタイトルを上書きするプラグインが必要

カスタムタイトルファインダーを取得するために、http: //sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html に基づいて Nutch 用のプラグインを作成しようとしています。

これはうまく機能し、抽出されたタイトルを新しいフィールドに保存することは問題ありません。しかし、デフォルトのタイトルの代わりに Solr で使用したいと考えています。問題は、2 つのタイトルフィールドがあるため、Solr が多値フィールドを必要とすることです。

metadata.remove("タイトル");

動作しませんでした。

Nutch によって作成されたデフォルトのタイトルではなく、新しいタイトルを使用したいのです。助言がありますか？

solr nutch

2010-11-27T22:04:16.807

0 投票する

1 に答える

2133 参照

私は、いくつかの作業を行うために成熟したクローラーが必要なプロジェクトに取り組んでおり、この目的のために Nutch を評価しています。現在のニーズは比較的単純です。データをディスクに保存できるクローラーと、サイトの更新されたリソースのみを再クロールして、既にクロールされた部分をスキップできるクローラーが必要です。コマンドライン経由ではなく、Java で直接 Nutch コードを操作した経験のある人はいますか? 簡単に始めたいと思います。クローラー（または同様のもの）を作成し、最小限の構成で開始します。派手なことは何もありません。これの例、または私が見るべきリソースはありますか? Nutch のドキュメントを読んでいますが、そのほとんどはコマンドライン、検索、その他に関するものです。インデックスや検索をしなくても、Nutch クローリングモジュールはどれくらい使いやすいですか? どんな助けでも大歓迎です。ありがとう。

java web-crawler nutch

2010-12-02T21:37:40.937

0 投票する

5 に答える

4528 参照

java - ナッチの問題：java.lang.NoClassDefFoundError

WindowsマシンでNutchを実行しようとしています。Nutch、Java、Tomcat、Cygwinをインストールしています。Cygwinでcrawlコマンドを実行しようとすると、次のエラーが発生します。

私のJavaは少し錆びていますが、これはCrawlクラスが存在しないことを示しているようです。この場合、どうすればそれを見つけて、システムがその存在を認識していることを確認できますか？

java tomcat cygwin nutch

2010-12-03T08:29:54.220

0 投票する

1 に答える

800 参照

lucene - Nutch - Lucene - ページのコンテンツをキャプチャする

Java Nutch を使用していくつかのページをクロールしました。また、Java の Lucene を使用して、インデックス付きドキュメントに対してクエリを実行できるモジュールを作成しました。URL、重量、タイトルなどの Nutch フィールドを作成したことは知っています。しかし、各ページのコンテンツをキャプチャすることに興味があります。Lucene を使用して、nutch でクロールしたことを知るにはどうすればよいですか?

ありがとう

lucene nutch web-crawler

2010-12-04T23:49:27.517

0 投票する

7 に答える

13214 参照

algorithm - Web Cralwerアルゴリズム：深さ？

私はクローラーに取り組んでおり、「リンクの深さ」が何を意味するのかを正確に理解する必要があります。例を挙げてみましょう： http：//wiki.apache.org/nutch/NutchTutorial

深さは、クロールする必要があるルートページからのリンクの深さを示します。

それで、私がドメインを持っていてwww.domain.com、たとえば、の深さをクロールしたいとします3-私は何をする必要がありますか？サイトを二分木として表現できれば、問題ないと思います。

algorithm web-crawler nutch

2010-12-04T23:54:04.253

0 投票する

2 に答える

448 参照

windows - WindowsでTomcatWebアプリからnutchを実行できません

Nutchクロールを実行するスクリプトを生成するWebアプリがあります。クライアントがWindowsPCでの実行を望んでいることを除けば、すべてが非常にうまく機能しています。彼女がくれたWindowsPCは、Windows 7HomePremiumを実行しています。

クロールスクリプトが起動するときを除いて、ほぼすべてが実行されています。nutch（Hadoopを実行し、奇妙な理由でwhoami）が失敗whoamiするのは、単一の文字列ではなく「ntauthority\system」が返されるためです。エラー：

javax.security.auth.login.LoginException：ログインに失敗しました：whoamiの結果として1つのトークンが必要です：nt Authority \ system

その場合、whoamiが返す名前を変更する方法はありますか？

更新：明確にするために、コマンドラインからスクリプトを実行すると、まったく同じスクリプトが正常に実行されます。問題は、Tomcatがサービスとして実行されるため、Tomcatが生成するスクリプトがこの「ntauthority \ system」ユーザーとして実行されることです。これはwhoami、スペースで区切られた2つの単語ではなく、1つの単語を返すことを明らかに期待しているため、hadoopを混乱させます。。

windows tomcat nutch

2010-12-05T02:54:16.870

0 投票する

1 に答える

1814 参照

google-app-engine - Google App Engine で選択したサイトに対して Web クローラーを実行していますか?

事前に選択されたいくつかの Web サイトのみから情報を抽出するクローラーを作成する必要があります。

これが簡単な仕事であることはわかっていますが、Google App Engine を使用してこれを行うことを考えています。

Nutch でこれをやってみようかな。

それを成し遂げるこの方法はどの程度実現可能ですか？

1) Google インフラストラクチャでクローラーをホストする 2) Nutch + アプリエンジン - 可能ですか?

google-app-engine web-crawler nutch

2010-12-06T09:34:29.600

問題タブ [nutch]

search-engine - Nutchの代替Webクローラー

nutch - ナッチクローラーをクロールさせる方法

java - ホスト別検索結果グループの作り方

solr - デフォルトのタイトルを上書きするプラグインが必要

java - Nutch API アドバイス

java - ナッチの問題：java.lang.NoClassDefFoundError

lucene - Nutch - Lucene - ページのコンテンツをキャプチャする

algorithm - Web Cralwerアルゴリズム：深さ？

windows - WindowsでTomcatWebアプリからnutchを実行できません

google-app-engine - Google App Engine で選択したサイトに対して Web クローラーを実行していますか?

問題タブ [nutch]

Reference