問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - ナッチ検索は常に0件の結果を返します
クラスタにnutch1.0を設定しました。セットアップが完了し、正常にクロールされました。dfs-copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも検索しようとすると、0件の結果が表示されます。
どんな助けでも大歓迎です。
nutch - Nutch マルチスレッド
マルチスレッド クロールを実行するために Nutch を構成しようとしています。
ただし、問題に直面しています。複数のスレッドでクロールを実行できません。nutch-site.xml を変更して 25 スレッドを使用しましたが、実行中のスレッドは 1 つしか表示されません。
私は常にactiveThreads = 25、spinWaiting = 24、fetchQueues.totalSize = some値の値を取得します。
これはどういう意味ですか、何が問題なのか、どうすれば解決できるのか説明していただけますか。
私はあなたの助けに非常に感謝します.
ありがとう、サミット
lucene - ナットフィールド問題
私は次のようなものを使用していました:
また、「notdirectory:1」などのクエリは常に適切に処理できます。
しかし最近、「Field.Store.NO、Field.Index.UN_TOKENIZED」を変更して、数値以外の文字列にインデックスを付けました。
「state:irn_CA」のようなクエリは、実際には「irn_CA」が「state」フィールドに追加されていることを Hadoop ログで監視しているにもかかわらず、結果を取得できません。
したがって、「Field.Store.NO、Field.Index.UN_TOKENIZED」を満たすフィールドは疑わしく、数値フィールドのみが検索可能ですが、それに関するドキュメントは見当たりませんでした。
では、その本当の理由とは?
nutch - RSS フィード
実際、私は初心者です。RSS フィードをクロールし、解析データをカスタマイズして、インデックスが RSS とは異なるフィールドを hv できるようにする方法があるかどうか知りたいです。のように rss フィードのフィールド source が item であるとします。このフィールドにインデックスを付けたい..
ありがとう
eclipse - Nut プラグイン開発
nutch wiki には、 nutch プラグインのビルド方法に関する説明がありますが、nutch ソース ツリー全体をダウンロードして $NUTCH_HOME/src/plugin の下に配置した場合に限ります。自分のソース コードを彼らのサブバージョン ツリーに混在させたくありません。自分の src/com/xcski git リポジトリに入れたいのです。そして、プラグインをビルドするためだけに Nutch のソース コードをダウンロードする必要はありません。
つまり、基本的には、ant build.xml ファイルに何を入れ、プラグインを作成してビルドするために Eclipse に何を入れるかを探しています。そして、私は完全なアリ初心者であることを覚えておいてください.
web-crawler - Nutchが「Last-Modified」について知らないように見えるのはなぜですか?
毎日クロールできるように、db.fetch.interval.defaultを60000に設定してNutchを設定しました。そうしないと、翌日クロールしても自分のサイトを見ることさえできません。しかし、翌日クロールすると、昨日フェッチしたすべてのページが200応答コードでフェッチされます。これは、「If-Modified-Since」で前日の日付を使用していないことを示しています。変更されていないページのフェッチをスキップするべきではありませんか?それをさせる方法はありますか?Fetcher.javaのProtocolStatus.NOT_MODIFIEDに気付いたので、これを実行できるはずだと思いますね。
ちなみに、これは現在のトランクのconf/nutch-default.xmlから切り取って貼り付けています。
lucene - Nutch のプラグイン システムはどのように機能しますか?
私は Nutch を初めて使用しますが、Nutch がテキスト形式のみを理解するインデックス作成に Lucene を使用していることは知っています。
Nutch には、特定の形式のドキュメントをクロールするために使用される多くのプラグインがあります。
私の疑問は次のとおりです。Nutch プラグイン システムは実際にどのようになっているのでしょうか。
Nutchの Team wiki ページを見ました
Nutch が Lucene と実際にどのように連携するかなどの情報が欲しいです。
filesystems - httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか?
httpプロトコルを使用してNutch-1.0を使用してインターネット上で提供されるPDFファイルをクロールするにはどうすればよいですか?
file://プロトコルを使用してローカルファイルシステムでそれを行うことはできますが、httpプロトコルを使用することはできません
php - 「Nutch 検索エンジン」のクロール結果を読み取るために PHP API を使用したことのある人はいますか?
Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:
PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html
PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです(または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()
PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。
必死に助けを待っています。