“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

361 参照

nutch - パラメータパスの点でのみURLが異なるcrwalingWebサイトでのNutchの問題

私はNutchを使用してWebistをクロールしていますが、奇妙なことに、私のWebistの1つに対して、NutchクロールはホームページのURL（http://mysite.com/）ともう1つのURLの2つのURLのみを返します。

私のウェブサイトのURLは基本的にこの形式です

http://mysite.com/index.php?main_page=index¶ms=12

http://mysite.com/index.php?main_page=index&category=tub¶m=17

つまり、URLは、URLに追加されたパラメータの点でのみ異なります（「http://mysite.com/index.php？」の部分はすべてのURLに共通です）

NutchはそのようなWebistをクロールできませんか？

そのようなWebサイトをクロールするには、どのようなNutch設定を行う必要がありますか？

nutch

2009-11-10T05:29:02.097

0 投票する

1 に答える

626 参照

nutch - Nutch-1.0でfollow Redirectを有効にする方法

Nutch-1.0 を使用しており、このログエントリ 2009-11-12 22:13:11,093 INFO httpclient.HttpMethodDirector - リダイレクトが要求されましたが、followRedirects が無効になっています。フォローリダイレクトを有効にする方法。前もって感謝します..

nutch

2009-11-12T16:59:48.593

0 投票する

1 に答える

3425 参照

java - Nutch regex-normalize.xml の構成

Java ベースの Nutch Web 検索ソフトウェアを使用しています。検索クエリ結果で重複した (url) 結果が返されないようにするために、Nutch クローラーを実行してイントラネットをインデックス化するときに、インデックス化される URL から「jsessionid」の表現を削除 (正規化) しようとしています。ただし、(クロールを実行する前に) $NUTCH_HOME/conf/regex-normalize.xml に変更を加えても効果がないようです。

regex-normalize.xml 構成がクロールに使用されていることを確認するにはどうすればよいですか? と、
クロール/インデックス作成中に URL から「jsessionid」の表現を正常に削除/正規化する正規表現はどれですか?

以下は、現在の regex-normalize.xml の内容です。

（テスト）「クロール」を実行するために発行しているコマンドは次のとおりです。

2009-11-17T20:38:00.740

0 投票する

2 に答える

400 参照

php - PHP exec（）からNutchコマンドを実行する際の問題

私のNutchディレクトリは/home/myserv/nutch/nutch-1.0/にあります

私のphpアプリケーションはディレクトリ/home/ myserv /www/にあります

/ home / myserv / www/diretcoryにphpファイルがあります。このファイルはexecコマンドを実行してnutchコマンドを実行します。PHPコードは次のようになります。

$ output = exec（ "bin / nutch all"）;

コマンドラインからコマンドを実行するときは、「/ home / myserv / nutch /nutch-1.0/」ディレクトリにいる必要があります

php exec（）を介して実行しようとすると、実行させることができるようです。

私は（以下）のようなフルパスを与えようとしましたが、何も機能しません:(

$ output = exec（ "/ home / myserv / nutch / nutch-1.0 / bin / nutch all"）;

必死に助けを求めて

php exec nutch

2009-11-18T05:42:20.540

0 投票する

3 に答える

506 参照

nutch - 新しいページが追加されると、Nutch は自動的に私のサイトをクロールしますか?

ウェブサイトに新しいページを追加すると、Nutch は自動的にクロールしますか?

nutch

2009-11-25T05:38:40.523

0 投票する

1 に答える

583 参照

java - クローラーが外部 Web サイトの検索結果を取得する

外部 Web サイトの検索テキストボックスにキーを入力して検索結果を収集するために使用できるベストプラクティスとライブラリは何ですか?
さまざまな検索ボックスとチェックボックスを使用して Web サイトに取り組み、結果を収集するにはどうすればよいですか?
これを自動化するためにSeleniumを使用できますか?
Heritrix と Nutch のどちらを使用する必要がありますか? どちらの方がよいですか？ナットにはプラグインが付属していると聞きました。コミュニティが大きいのはどっち？

java selenium web-crawler nutch

2009-12-16T06:15:38.167

0 投票する

3 に答える

1335 参照

java - クロールエンジンのアーキテクチャ - Java/Perl の統合

Web クロールの Perl スクリプトに関する管理および管理ソリューションの開発を検討しています。基本的に、現在、スクリプトは SVN に保存され、SysAdmin/devs などによって手動で開始されます。新しいソースからデータを取得する必要があるたびに、ビジネスの指示と目標を含むチケットを作成する必要があります。ご想像のとおり、最適なソリューションではありません。

このシステムには 3 つの一貫したテーマがあります。

データの検索には、より適切なフレーズがないための「概念構造」があります。つまり、情報の検索は特定の経路をたどります。
私たちは非常に具体的な情報のみを探しているので、しばらくの間は大規模なクロールについて心配する必要はありません (数千から数万のページと数百万のページを考えてみてください)
クロールは、サイトベースではなく URL ベースです。

このアルファ版をより実稼働レベルのベータ版に拡張する際に、データ取得の自動化と管理を追加したいと考えています。さらに、私たちの他のシステムは Java (私はこちらの方が得意です) であり、外部の助けに大きく依存する必要がないように、perl の側面を区分したいと考えています。

通常の容疑者Nutch、Droidなどを評価しましたが、特定の情報検索に合わせてこれらのフレームワークを変更するのに費やした時間は正当化できません。

そこで、以下のアーキテクチャについてご意見をお聞かせください。

ソリューションを作成したい

perl スクリプトの管理と実行のためのインターフェースとして Java を使用する
構成とデータアクセスに Java を使用する
検索のためにperlに固執する

ユースケースの例は次のとおりです。

データアナリストから、クロールの要件が提示されました
perl 開発者は必要なスクリプトを作成し、この webapp を使用してスクリプトを送信します (スクリプトはファイルシステムに保存されます)。
スクリプトは、特定のパラメーターを使用して webapp から開始されます ....

Webapp は、perl スクリプトの複数のスレッドを作成して、複数のクローラーを開始できる必要があります。

だから質問は

どう思いますか
特にJavaからPerlを呼び出すことから、JavaとPerlの間の統合がどれほど堅実であるか
実際にperlリポジトリの一部であるそのようなシステムを誰かが使用しましたか

本当の目標は、整理されていない perl スクリプトを大量に持たないようにし、情報検索にある程度の管理と組織を配置することです。また、perl を使用して必要な Web 部分を実行できることもわかっていますが、前に述べたように、perl に焦点を合わせ続けようとしています。しかし、私はこれをすべて perl ソリューションにすることに反対ではないようです。

すべての提案や意見を受け入れます。

ありがとう

java perl hadoop nutch web-crawler

2009-12-22T06:55:55.837

0 投票する

1 に答える

766 参照

nutch - nuch 検索エンジンでカスタムフィールドを作成する方法は?

Nutch 検索エンジンでカスタムフィールドを作成したいですか? 私が従う手順は何ですか？

nutch

2010-01-04T09:32:53.460

0 投票する

1 に答える

788 参照

solr - solr admin は、nutch を統合した後に 404 エラーを返します

http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/の指示に従いました

その前にsolrを起動して実行していたので、テストケースを処理したり、管理ページにアクセスしたりできました.

指示に従って、nutch schema.xml を solr にコピーしました。機能し、管理者にアクセスできました。

solrconfig.xml に requesthandler スニペット (Web サイトの 5d を参照) を追加すると、管理ページに移動すると、突然「HTTP エラー: パス RequestURI=/solr/admin/index.jsp に 404 コア名がありません」が表示されなくなりました。

requesthandler スニペットの何が原因で管理者が失敗するのかわかりません。2月を利用。solrの26ビルド。

solr jetty nutch

2010-02-26T18:15:45.817

問題タブ [nutch]

Reference