“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

5238 参照

filesystems - ナッチクロールファイルシステムを作成する方法は？

httpに基づかない、

http：// localhost：81などのように、

ただし、ローカルファイルシステム上の特定のディレクトリを直接クロールします。

抜け道はありますか？

2009-06-02T19:44:23.843

0 投票する

1 に答える

257 参照

search - ナッチ検索は常に0件の結果を返します

クラスタにnutch1.0を設定しました。セットアップが完了し、正常にクロールされました。dfs-copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも検索しようとすると、0件の結果が表示されます。

どんな助けでも大歓迎です。

search tomcat hadoop nutch

darbour

2009-06-04T19:44:22.560

0 投票する

1 に答える

2320 参照

nutch - Nutch マルチスレッド

マルチスレッドクロールを実行するために Nutch を構成しようとしています。

ただし、問題に直面しています。複数のスレッドでクロールを実行できません。nutch-site.xml を変更して 25 スレッドを使用しましたが、実行中のスレッドは 1 つしか表示されません。

私は常にactiveThreads = 25、spinWaiting = 24、fetchQueues.totalSize = some値の値を取得します。

これはどういう意味ですか、何が問題なのか、どうすれば解決できるのか説明していただけますか。

私はあなたの助けに非常に感謝します.

ありがとう、サミット

nutch

2009-06-13T16:39:40.480

0 投票する

2 に答える

161 参照

lucene - ナットフィールド問題

私は次のようなものを使用していました：

また、「notdirectory:1」などのクエリは常に適切に処理できます。

しかし最近、「Field.Store.NO、Field.Index.UN_TOKENIZED」を変更して、数値以外の文字列にインデックスを付けました。

「state:irn_CA」のようなクエリは、実際には「irn_CA」が「state」フィールドに追加されていることを Hadoop ログで監視しているにもかかわらず、結果を取得できません。

したがって、「Field.Store.NO、Field.Index.UN_TOKENIZED」を満たすフィールドは疑わしく、数値フィールドのみが検索可能ですが、それに関するドキュメントは見当たりませんでした。

では、その本当の理由とは？

lucene field nutch

2009-06-18T03:39:14.963

0 投票する

2 に答える

1921 参照

nutch - RSS フィード

実際、私は初心者です。RSS フィードをクロールし、解析データをカスタマイズして、インデックスが RSS とは異なるフィールドを hv できるようにする方法があるかどうか知りたいです。のように rss フィードのフィールド source が item であるとします。このフィールドにインデックスを付けたい..

ありがとう

nutch

vibs

2009-07-07T10:22:52.080

0 投票する

1 に答える

1966 参照

nutch wiki には、 nutch プラグインのビルド方法に関する説明がありますが、nutch ソースツリー全体をダウンロードして $NUTCH_HOME/src/plugin の下に配置した場合に限ります。自分のソースコードを彼らのサブバージョンツリーに混在させたくありません。自分の src/com/xcski git リポジトリに入れたいのです。そして、プラグインをビルドするためだけに Nutch のソースコードをダウンロードする必要はありません。

つまり、基本的には、ant build.xml ファイルに何を入れ、プラグインを作成してビルドするために Eclipse に何を入れるかを探しています。そして、私は完全なアリ初心者であることを覚えておいてください.

eclipse ant plugins nutch

2009-07-31T15:51:11.507

0 投票する

2 に答える

1496 参照

web-crawler - Nutchが「Last-Modified」について知らないように見えるのはなぜですか？

毎日クロールできるように、db.fetch.interval.defaultを60000に設定してNutchを設定しました。そうしないと、翌日クロールしても自分のサイトを見ることさえできません。しかし、翌日クロールすると、昨日フェッチしたすべてのページが200応答コードでフェッチされます。これは、「If-Modified-Since」で前日の日付を使用していないことを示しています。変更されていないページのフェッチをスキップするべきではありませんか？それをさせる方法はありますか？Fetcher.javaのProtocolStatus.NOT_MODIFIEDに気付いたので、これを実行できるはずだと思いますね。

ちなみに、これは現在のトランクのconf/nutch-default.xmlから切り取って貼り付けています。

web-crawler nutch

2009-08-09T21:05:55.913

0 投票する

1 に答える

1256 参照

lucene - Nutch のプラグインシステムはどのように機能しますか?

私は Nutch を初めて使用しますが、Nutch がテキスト形式のみを理解するインデックス作成に Lucene を使用していることは知っています。

Nutch には、特定の形式のドキュメントをクロールするために使用される多くのプラグインがあります。

私の疑問は次のとおりです。Nutch プラグインシステムは実際にどのようになっているのでしょうか。

Nutchの Team wiki ページを見ました

Nutch が Lucene と実際にどのように連携するかなどの情報が欲しいです。

lucene nutch

2009-09-19T10:56:45.233

0 投票する

1 に答える

1568 参照

filesystems - httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか？

httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか？

file：//プロトコルを使用してローカルファイルシステムでそれを行うことはできますが、httpプロトコルを使用することはできません

filesystems nutch web-crawler

user187252

2009-10-09T15:11:23.833

0 投票する

4 に答える

1691 参照

php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?

Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:

PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html
PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです（または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()

PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。

必死に助けを待っています。

php nutch phpcrawl

2009-10-29T11:35:56.593

問題タブ [nutch]

filesystems - ナッチクロールファイルシステムを作成する方法は？

search - ナッチ検索は常に0件の結果を返します

nutch - Nutch マルチスレッド

lucene - ナットフィールド問題

nutch - RSS フィード

eclipse - Nut プラグイン開発

web-crawler - Nutchが「Last-Modified」について知らないように見えるのはなぜですか？

lucene - Nutch のプラグインシステムはどのように機能しますか?

filesystems - httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか？

php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?

問題タブ [nutch]

Reference