問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
356 参照

java - Java CSS クローラー

ページの CSS を取得できる Web クローラーを探しています。他の派手なクロール能力は必要ありません。

私は Xapian、Nutch、Heritrix を通り抜けようとしています。それらはすべて少し複雑に見えます。誰かが経験や推奨事項を持っているなら、私は聞きたいです. 上記のプラットフォームのいずれかへのアクセス可能なチュートリアルも歓迎されます。

デビッド

0 投票する
2 に答える
2099 参照

nutch - nutchを利用した短縮URLのクロールについて

urlsディレクトリに指定した一連の URL をクロールし、その URL のコンテンツのみを取得する必要があるアプリケーションに Nutch クローラーを使用しています。内部リンクまたは外部リンクの内容には興味がありません。そこで、NUTCH クローラーを使用し、深さを 1 としてクロール コマンドを実行しました。

Nutch は URL をクロールし、指定された URL の内容を教えてくれます。

readeg ユーティリティを使用してコンテンツを読んでいます。

これで、Webページのコンテンツを取得しています。

私が直面している問題は、次のような直接の URL を指定した場合です。

次に、Webページのコンテンツを取得できます。しかし、一連の URL を次のような短い URL として指定すると、

コンテンツを取得できません。

セグメントを読むと、コンテンツが表示されません。セグメントから読み取ったダンプ ファイルの内容を以下に示します。

また、nutch-default.xml の max.redirects プロパティを 4 に設定してみましたが、進展がありません。この問題の解決策を教えてください。

よろしくお願いします。 Arjun Kumar Reddy

0 投票する
1 に答える
1041 参照

java - 私のナッチ再クロールスクリプトの何が問題なのですか

こんにちは、このスクリプトを使用してナッチを再クロールしていますが、例外が発生します..

脚本

からこれを得たhttp://wiki.apache.org/nutch/NutchTutorial

誰が何が悪いのか教えてもらえますか....

0 投票する
2 に答える
286 参照

java - ナッチクローラーはクロールしています ' as â€

ナッチクローラーはyとしてクロールlet'sしていますLet’s??? この文字セットを変更する設定はありますか..

0 投票する
6 に答える
6232 参照

nutch - Nutch でクロールを高速化する方法

Nutch の urls ファイルに制約付きの一連の url を与えるアプリケーションを開発しようとしています。これらの URL をクロールし、セグメントからデータを読み取ることでコンテンツを取得できます。

ウェブページのアウトリンクやインリンクはまったく気にしないので、深さ 1 を指定してクロールしました。urls ファイルには、その Web ページのコンテンツのみが必要です。

ただし、このクロールの実行には時間がかかります。そこで、クロール時間を短縮し、クロール速度を上げる方法を提案してください。検索部分は気にしないので、インデックス作成も必要ありません。

クロールを高速化する方法について提案がある人はいますか?

0 投票する
1 に答える
254 参照

nutch - ストップワードと同義語

ナットクローラーでストップワードと同義語を設定するオプションはありますか

これに似た何か`

0 投票する
1 に答える
214 参照

solr - その場でのNutchクエリ

私はnutchとsolrの初心者です。まあNutchよりもSolrの方が比較的新しいです:)

過去 2 週間 Nutch を使用していますが、その場で (完了する前に) Nutch のクロールを照会または検索できるかどうかを知りたいと思っていました。私がクロールしている Web サイトは非常に巨大で、クロールが完了するまでに約 3 ~ 4 日かかるため、この質問をしています。Nutch クローラーがまだ URL をクロールしている間に、いくつかの簡単な結果を分析したいと考えています。ある人は、Solr がそれを可能にするだろうと私に提案しました。

これについては、 http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/の手順に従いました。挿入された URL のみが Solr 検索に表示されます。私は本当にばかげたことをしたことを知っていますが、クロールは一度も行われませんでした。しかし、リンクに記載されているすべての手順を実行しました。プロセスのどこかでクロールが発生し、見落とされているはずだと思います。

誰かがこれを指摘するのを手伝ってくれるかどうか、そしてその過程でどこが間違っていたかを見たかっただけです. 私の愚かさを許し、あなたの忍耐に感謝します。

乾杯、アビ

0 投票する
2 に答える
2036 参照

solr - Apache Nutch は Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します

Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックス ページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URL フォルダー内の seed.txt: http://www5.my-domain.de/

nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。

興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。

何か案は?

0 投票する
1 に答える
1003 参照

java - Nutchを1つのJarファイルにコンパイルする(そしてそれを実行する)プロセスは何ですか?

すべての依存関係を含む1つのJARファイルを介してすべての機能にアクセスできる方法でNutchクローラーを実行しようとしています。

例えば、

後の段階で、hadoopで呼び出します。

現在、

nutchディレクトリに存在するJARファイルで、エラーが発生します。

これは、この特定のJARにマニフェストXMLファイルやその他の依存するJARが含まれていないために発生すると思います。この目的のために1つのJARにナッチを組み込むための最良の方法として何をお勧めしますか?

ありがとう!

0 投票する
4 に答える
6176 参照

nutch - Nutch から HTML コンテンツを取得する方法

Web ページをクロールしているときに、各 Web ページの HTML コンテンツを取得する方法はありますか?