問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5238 参照

filesystems - ナッチクロールファイルシステムを作成する方法は?

httpに基づかない、

http:// localhost:81などのように、

ただし、ローカルファイルシステム上の特定のディレクトリを直接クロールします。

抜け道はありますか?

0 投票する
1 に答える
257 参照

search - ナッチ検索は常に0件の結果を返します

クラスタにnutch1.0を設定しました。セットアップが完了し、正常にクロールされました。dfs-copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも検索しようとすると、0件の結果が表示されます。

どんな助けでも大歓迎です。

0 投票する
1 に答える
2320 参照

nutch - Nutch マルチスレッド

マルチスレッド クロールを実行するために Nutch を構成しようとしています。

ただし、問題に直面しています。複数のスレッドでクロールを実行できません。nutch-site.xml を変更して 25 スレッドを使用しましたが、実行中のスレッドは 1 つしか表示されません。

私は常にactiveThreads = 25、spinWaiting = 24、fetchQueues.totalSize = some値の値を取得します。

これはどういう意味ですか、何が問題なのか、どうすれば解決できるのか説明していただけますか。

私はあなたの助けに非常に感謝します.

ありがとう、サミット

0 投票する
2 に答える
161 参照

lucene - ナットフィールド問題

私は次のようなものを使用していました:

また、「notdirectory:1」などのクエリは常に適切に処理できます。

しかし最近、「Field.Store.NO、Field.Index.UN_TOKENIZED」を変更して、数値以外の文字列にインデックスを付けました。

「state:irn_CA」のようなクエリは、実際には「irn_CA」が「state」フィールドに追加されていることを Hadoop ログで監視しているにもかかわらず、結果を取得できません。

したがって、「Field.Store.NO、Field.Index.UN_TOKENIZED」を満たすフィールドは疑わしく、数値フィールドのみが検索可能ですが、それに関するドキュメントは見当たりませんでした。

では、その本当の理由とは?

0 投票する
2 に答える
1921 参照

nutch - RSS フィード

実際、私は初心者です。RSS フィードをクロールし、解析データをカスタマイズして、インデックスが RSS とは異なるフィールドを hv できるようにする方法があるかどうか知りたいです。のように rss フィードのフィールド source が item であるとします。このフィールドにインデックスを付けたい..

ありがとう

0 投票する
1 に答える
1966 参照

eclipse - Nut プラグイン開発

nutch wiki には、 nutch プラグインのビルド方法に関する説明がありますが、nutch ソース ツリー全体をダウンロードして $NUTCH_HOME/src/plugin の下に配置した場合に限ります。自分のソース コードを彼らのサブバージョン ツリーに混在させたくありません。自分の src/com/xcski git リポジトリに入れたいのです。そして、プラグインをビルドするためだけに Nutch のソース コードをダウンロードする必要はありません。

つまり、基本的には、ant build.xml ファイルに何を入れ、プラグインを作成してビルドするために Eclipse に何を入れるかを探しています。そして、私は完全なアリ初心者であることを覚えておいてください.

0 投票する
2 に答える
1496 参照

web-crawler - Nutchが「Last-Modified」について知らないように見えるのはなぜですか?

毎日クロールできるように、db.fetch.interval.defaultを60000に設定してNutchを設定しました。そうしないと、翌日クロールしても自分のサイトを見ることさえできません。しかし、翌日クロールすると、昨日フェッチしたすべてのページが200応答コードでフェッチされます。これは、「If-Modified-Since」で前日の日付を使用していないことを示しています。変更されていないページのフェッチをスキップするべきではありませんか?それをさせる方法はありますか?Fetcher.javaのProtocolStatus.NOT_MODIFIEDに気付いたので、これを実行できるはずだと思いますね。

ちなみに、これは現在のトランクのconf/nutch-default.xmlから切り取って貼り付けています。

0 投票する
1 に答える
1256 参照

lucene - Nutch のプラグイン システムはどのように機能しますか?

私は Nutch を初めて使用しますが、Nutch がテキスト形式のみを理解するインデックス作成に Lucene を使用していることは知っています。

Nutch には、特定の形式のドキュメントをクロールするために使用される多くのプラグインがあります。

私の疑問は次のとおりです。Nutch プラグイン システムは実際にどのようになっているのでしょうか。

Nutchの Team wiki ページを見ました

Nutch が Lucene と実際にどのように連携するかなどの情報が欲しいです。

0 投票する
1 に答える
1568 参照

filesystems - httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか?

httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか?

file://プロトコルを使用してローカルファイルシステムでそれを行うことはできますが、httpプロトコルを使用することはできません

0 投票する
4 に答える
1691 参照

php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?

Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:

  1. PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html

  2. PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです(または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()

PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。

必死に助けを待っています。