“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

356 参照

java - Java CSS クローラー

ページの CSS を取得できる Web クローラーを探しています。他の派手なクロール能力は必要ありません。

私は Xapian、Nutch、Heritrix を通り抜けようとしています。それらはすべて少し複雑に見えます。誰かが経験や推奨事項を持っているなら、私は聞きたいです. 上記のプラットフォームのいずれかへのアクセス可能なチュートリアルも歓迎されます。

デビッド

2011-01-16T19:38:19.230

0 投票する

2 に答える

2099 参照

nutch - nutchを利用した短縮URLのクロールについて

urlsディレクトリに指定した一連の URL をクロールし、その URL のコンテンツのみを取得する必要があるアプリケーションに Nutch クローラーを使用しています。内部リンクまたは外部リンクの内容には興味がありません。そこで、NUTCH クローラーを使用し、深さを 1 としてクロールコマンドを実行しました。

Nutch は URL をクロールし、指定された URL の内容を教えてくれます。

readeg ユーティリティを使用してコンテンツを読んでいます。

これで、Webページのコンテンツを取得しています。

私が直面している問題は、次のような直接の URL を指定した場合です。

次に、Webページのコンテンツを取得できます。しかし、一連の URL を次のような短い URL として指定すると、

コンテンツを取得できません。

セグメントを読むと、コンテンツが表示されません。セグメントから読み取ったダンプファイルの内容を以下に示します。

また、nutch-default.xml の max.redirects プロパティを 4 に設定してみましたが、進展がありません。この問題の解決策を教えてください。

よろしくお願いします。 Arjun Kumar Reddy

nutch web-crawler short-url

2011-01-25T16:35:42.660

0 投票する

1 に答える

1041 参照

java - 私のナッチ再クロールスクリプトの何が問題なのですか

こんにちは、このスクリプトを使用してナッチを再クロールしていますが、例外が発生します..

脚本

からこれを得たhttp://wiki.apache.org/nutch/NutchTutorial

誰が何が悪いのか教えてもらえますか....

java nutch

2011-01-28T11:16:38.700

0 投票する

2 に答える

286 参照

java - ナッチクローラーはクロールしています ' as â€

ナッチクローラーはyとしてクロールlet'sしていますLetâ€™s??? この文字セットを変更する設定はありますか..

java nutch

2011-02-01T16:47:10.570

0 投票する

6 に答える

6232 参照

nutch - Nutch でクロールを高速化する方法

Nutch の urls ファイルに制約付きの一連の url を与えるアプリケーションを開発しようとしています。これらの URL をクロールし、セグメントからデータを読み取ることでコンテンツを取得できます。

ウェブページのアウトリンクやインリンクはまったく気にしないので、深さ 1 を指定してクロールしました。urls ファイルには、その Web ページのコンテンツのみが必要です。

ただし、このクロールの実行には時間がかかります。そこで、クロール時間を短縮し、クロール速度を上げる方法を提案してください。検索部分は気にしないので、インデックス作成も必要ありません。

クロールを高速化する方法について提案がある人はいますか?

nutch web-crawler

2011-02-02T07:54:36.760

0 投票する

1 に答える

254 参照

nutch - ストップワードと同義語

ナットクローラーでストップワードと同義語を設定するオプションはありますか

これに似た何か`

nutch

2011-02-02T19:16:37.600

0 投票する

1 に答える

214 参照

solr - その場でのNutchクエリ

私はnutchとsolrの初心者です。まあNutchよりもSolrの方が比較的新しいです:)

過去 2 週間 Nutch を使用していますが、その場で (完了する前に) Nutch のクロールを照会または検索できるかどうかを知りたいと思っていました。私がクロールしている Web サイトは非常に巨大で、クロールが完了するまでに約 3 ～ 4 日かかるため、この質問をしています。Nutch クローラーがまだ URL をクロールしている間に、いくつかの簡単な結果を分析したいと考えています。ある人は、Solr がそれを可能にするだろうと私に提案しました。

これについては、 http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/の手順に従いました。挿入された URL のみが Solr 検索に表示されます。私は本当にばかげたことをしたことを知っていますが、クロールは一度も行われませんでした。しかし、リンクに記載されているすべての手順を実行しました。プロセスのどこかでクロールが発生し、見落とされているはずだと思います。

誰かがこれを指摘するのを手伝ってくれるかどうか、そしてその過程でどこが間違っていたかを見たかっただけです. 私の愚かさを許し、あなたの忍耐に感謝します。

乾杯、アビ

solr nutch

2011-02-09T04:56:05.667

0 投票する

2 に答える

2036 参照

solr - Apache Nutch は Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します

Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックスページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URL フォルダー内の seed.txt: http://www5.my-domain.de/

nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。

興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。

何か案は？

solr web-crawler nutch

2011-02-14T12:15:08.070

0 投票する

1 に答える

1003 参照

java - Nutchを1つのJarファイルにコンパイルする（そしてそれを実行する）プロセスは何ですか？

すべての依存関係を含む1つのJARファイルを介してすべての機能にアクセスできる方法でNutchクローラーを実行しようとしています。

例えば、

後の段階で、hadoopで呼び出します。

現在、

nutchディレクトリに存在するJARファイルで、エラーが発生します。

これは、この特定のJARにマニフェストXMLファイルやその他の依存するJARが含まれていないために発生すると思います。この目的のために1つのJARにナッチを組み込むための最良の方法として何をお勧めしますか？

ありがとう！

java jar hadoop executable-jar nutch

2011-02-17T03:14:29.983

0 投票する

4 に答える

6176 参照

nutch - Nutch から HTML コンテンツを取得する方法

Web ページをクロールしているときに、各 Web ページの HTML コンテンツを取得する方法はありますか?

nutch

2011-02-25T23:16:02.243

問題タブ [nutch]

Reference