問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - Nutchの代替Webクローラー
限られた数のWebサイトにインデックスを付ける専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は次のとおりです。
- NutchをWebクローラーとして使用し、
- Solrを検索エンジンとして使用し、
- フロントエンドとサイトロジックはWicketでコーディングされています。
問題は、Nutchが非常に複雑であり、詳細なドキュメント(本、最近のチュートリアルなど)が存在しないにもかかわらず、カスタマイズするのに大きなソフトウェアであることに気付くということです。
今の質問:
- サイトの穴のアイデアについて建設的な批判はありますか?
- (サイトのクロール部分として)Nutchに代わる優れたシンプルな方法はありますか?
ありがとう
nutch - ナッチクローラーをクロールさせる方法
ウィキを使用している間、私は少し疑問があります。crawl-urlfilter.txt
そして、URLフォルダとURLのリストを作成するように求められます...
crawl-urlfilter.txt
URLのリスト内およびリスト内にすべてのリンクを作成する必要がありますか...
java - ホスト別検索結果グループの作り方
小さなイントラネット検索を行っています クロールと検索に Nutch を使用しています 次のようなサブドメインを持っています
そして、nutch を使用して値を検索すると、すべてのドメインから検索結果が得られます。サブドメインごとに 1 つの結果が必要です
solr - デフォルトのタイトルを上書きするプラグインが必要
カスタム タイトル ファインダーを取得するために、http: //sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html に基づいて Nutch 用のプラグインを作成しようとしています。
これはうまく機能し、抽出されたタイトルを新しいフィールドに保存することは問題ありません。しかし、デフォルトのタイトルの代わりに Solr で使用したいと考えています。問題は、2 つのタイトル フィールドがあるため、Solr が多値フィールドを必要とすることです。
metadata.remove("タイトル");
動作しませんでした。
Nutch によって作成されたデフォルトのタイトルではなく、新しいタイトルを使用したいのです。助言がありますか?
java - Nutch API アドバイス
私は、いくつかの作業を行うために成熟したクローラーが必要なプロジェクトに取り組んでおり、この目的のために Nutch を評価しています。現在のニーズは比較的単純です。データをディスクに保存できるクローラーと、サイトの更新されたリソースのみを再クロールして、既にクロールされた部分をスキップできるクローラーが必要です。コマンドライン経由ではなく、Java で直接 Nutch コードを操作した経験のある人はいますか? 簡単に始めたいと思います。クローラー(または同様のもの)を作成し、最小限の構成で開始します。派手なことは何もありません。これの例、または私が見るべきリソースはありますか? Nutch のドキュメントを読んでいますが、そのほとんどはコマンド ライン、検索、その他に関するものです。インデックスや検索をしなくても、Nutch クローリング モジュールはどれくらい使いやすいですか? どんな助けでも大歓迎です。ありがとう。
java - ナッチの問題:java.lang.NoClassDefFoundError
WindowsマシンでNutchを実行しようとしています。Nutch、Java、Tomcat、Cygwinをインストールしています。Cygwinでcrawlコマンドを実行しようとすると、次のエラーが発生します。
私のJavaは少し錆びていますが、これはCrawl
クラスが存在しないことを示しているようです。この場合、どうすればそれを見つけて、システムがその存在を認識していることを確認できますか?
lucene - Nutch - Lucene - ページのコンテンツをキャプチャする
Java Nutch を使用していくつかのページをクロールしました。また、Java の Lucene を使用して、インデックス付きドキュメントに対してクエリを実行できるモジュールを作成しました。URL、重量、タイトルなどの Nutch フィールドを作成したことは知っています。しかし、各ページのコンテンツをキャプチャすることに興味があります。Lucene を使用して、nutch でクロールしたことを知るにはどうすればよいですか?
ありがとう
algorithm - Web Cralwerアルゴリズム:深さ?
私はクローラーに取り組んでおり、「リンクの深さ」が何を意味するのかを正確に理解する必要があります。例を挙げてみましょう: http://wiki.apache.org/nutch/NutchTutorial
深さは、クロールする必要があるルートページからのリンクの深さを示します。
それで、私がドメインを持っていてwww.domain.com
、たとえば、の深さをクロールしたいとします3
-私は何をする必要がありますか?サイトを二分木として表現できれば、問題ないと思います。
windows - WindowsでTomcatWebアプリからnutchを実行できません
Nutchクロールを実行するスクリプトを生成するWebアプリがあります。クライアントがWindowsPCでの実行を望んでいることを除けば、すべてが非常にうまく機能しています。彼女がくれたWindowsPCは、Windows 7HomePremiumを実行しています。
クロールスクリプトが起動するときを除いて、ほぼすべてが実行されています。nutch(Hadoopを実行し、奇妙な理由でwhoami
)が失敗whoami
するのは、単一の文字列ではなく「ntauthority\system」が返されるためです。エラー:
javax.security.auth.login.LoginException:ログインに失敗しました:whoamiの結果として1つのトークンが必要です:nt Authority \ system
その場合、whoamiが返す名前を変更する方法はありますか?
更新:明確にするために、コマンドラインからスクリプトを実行すると、まったく同じスクリプトが正常に実行されます。問題は、Tomcatがサービスとして実行されるため、Tomcatが生成するスクリプトがこの「ntauthority \ system」ユーザーとして実行されることです。これはwhoami
、スペースで区切られた2つの単語ではなく、1つの単語を返すことを明らかに期待しているため、hadoopを混乱させます。 。
google-app-engine - Google App Engine で選択したサイトに対して Web クローラーを実行していますか?
事前に選択されたいくつかの Web サイトのみから情報を抽出するクローラーを作成する必要があります。
これが簡単な仕事であることはわかっていますが、Google App Engine を使用してこれを行うことを考えています。
Nutch でこれをやってみようかな。
それを成し遂げるこの方法はどの程度実現可能ですか?
1) Google インフラストラクチャでクローラーをホストする 2) Nutch + アプリ エンジン - 可能ですか?