問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
361 参照

nutch - パラメータパスの点でのみURLが異なるcrwalingWebサイトでのNutchの問題

私はNutchを使用してWebistをクロールしていますが、奇妙なことに、私のWebistの1つに対して、NutchクロールはホームページのURL(http://mysite.com/)ともう1つのURLの2つのURLのみを返します。

私のウェブサイトのURLは基本的にこの形式です

http://mysite.com/index.php?main_page=index¶ms=12

http://mysite.com/index.php?main_page=index&category=tub¶m=17

つまり、URLは、URLに追加されたパラメータの点でのみ異なります(「http://mysite.com/index.php?」の部分はすべてのURLに共通です)

NutchはそのようなWebistをクロールできませんか?

そのようなWebサイトをクロールするには、どのようなNutch設定を行う必要がありますか?

0 投票する
1 に答える
626 参照

nutch - Nutch-1.0でfollow Redirectを有効にする方法

Nutch-1.0 を使用しており、このログ エントリ 2009-11-12 22:13:11,093 INFO httpclient.HttpMethodDirector - リダイレクトが要求されましたが、followRedirects が無効になっています。フォローリダイレクトを有効にする方法。前もって感謝します..

0 投票する
1 に答える
3425 参照

java - Nutch regex-normalize.xml の構成

Java ベースの Nutch Web 検索ソフトウェアを使用しています。検索クエリ結果で重複した (url) 結果が返されないようにするために、Nutch クローラーを実行してイントラネットをインデックス化するときに、インデックス化される URL から「jsessionid」の表現を削除 (正規化) しようとしています。ただし、(クロールを実行する前に) $NUTCH_HOME/conf/regex-normalize.xml に変更を加えても効果がないようです。

  1. regex-normalize.xml 構成がクロールに使用されていることを確認するにはどうすればよいですか? と、

  2. クロール/インデックス作成中に URL から「jsessionid」の表現を正常に削除/正規化する正規表現はどれですか?

以下は、現在の regex-normalize.xml の内容です。

(テスト)「クロール」を実行するために発行しているコマンドは次のとおりです。

0 投票する
2 に答える
400 参照

php - PHP exec()からNutchコマンドを実行する際の問題

私のNutchディレクトリは/home/myserv/nutch/nutch-1.0/にあります

私のphpアプリケーションはディレクトリ/home/ myserv /www/にあります

/ home / myserv / www/diretcoryにphpファイルがあります。このファイルはexecコマンドを実行してnutchコマンドを実行します。PHPコードは次のようになります。

$ output = exec( "bin / nutch all");

コマンドラインからコマンドを実行するときは、「/ home / myserv / nutch /nutch-1.0/」ディレクトリにいる必要があります

php exec()を介して実行しようとすると、実行させることができるようです。

私は(以下)のようなフルパスを与えようとしましたが、何も機能しません:(

$ output = exec( "/ home / myserv / nutch / nutch-1.0 / bin / nutch all");

必死に助けを求めて

0 投票する
3 に答える
506 参照

nutch - 新しいページが追加されると、Nutch は自動的に私のサイトをクロールしますか?

ウェブサイトに新しいページを追加すると、Nutch は自動的にクロールしますか?

0 投票する
1 に答える
583 参照

java - クローラーが外部 Web サイトの検索結果を取得する

  1. 外部 Web サイトの検索テキスト ボックスにキーを入力して検索結果を収集するために使用できるベスト プラクティスとライブラリは何ですか?
  2. さまざまな検索ボックスとチェックボックスを使用して Web サイトに取り組み、結果を収集するにはどうすればよいですか?
  3. これを自動化するためにSeleniumを使用できますか?
  4. Heritrix と Nutch のどちらを使用する必要がありますか? どちらの方がよいですか?ナットにはプラグインが付属していると聞きました。コミュニティが大きいのはどっち?
0 投票する
3 に答える
1335 参照

java - クロール エンジンのアーキテクチャ - Java/Perl の統合

Web クロールの Perl スクリプトに関する管理および管理ソリューションの開発を検討しています。基本的に、現在、スクリプトは SVN に保存され、SysAdmin/devs などによって手動で開始されます。新しいソースからデータを取得する必要があるたびに、ビジネスの指示と目標を含むチケットを作成する必要があります。ご想像のとおり、最適なソリューションではありません。

このシステムには 3 つの一貫したテーマがあります。

  1. データの検索には、より適切なフレーズがないための「概念構造」があります。つまり、情報の検索は特定の経路をたどります。
  2. 私たちは非常に具体的な情報のみを探しているので、しばらくの間は大規模なクロールについて心配する必要はありません (数千から数万のページと数百万のページを考えてみてください)
  3. クロールは、サイト ベースではなく URL ベースです。

このアルファ版をより実稼働レベルのベータ版に拡張する際に、データ取得の自動化と管理を追加したいと考えています。さらに、私たちの他のシステムは Java (私はこちらの方が得意です) であり、外部の助けに大きく依存する必要がないように、perl の側面を区分したいと考えています。

通常の容疑者NutchDroidなどを評価しましたが、特定の情報検索に合わせてこれらのフレームワークを変更するのに費やした時間は正当化できません。

そこで、以下のアーキテクチャについてご意見をお聞かせください。

ソリューションを作成したい

  • perl スクリプトの管理と実行のためのインターフェースとして Java を使用する
  • 構成とデータ アクセスに Java を使用する
  • 検索のためにperlに固執する

ユースケースの例は次のとおりです。

  1. データ アナリストから、クロールの要件が提示されました
  2. perl 開発者は必要なスクリプトを作成し、この webapp を使用してスクリプトを送信します (スクリプトはファイルシステムに保存されます)。
  3. スクリプトは、特定のパラメーターを使用して webapp から開始されます ....

Webapp は、perl スクリプトの複数のスレッドを作成して、複数のクローラーを開始できる必要があります。

だから質問は

  1. どう思いますか
  2. 特にJavaからPerlを呼び出すことから、JavaとPerlの間の統合がどれほど堅実であるか
  3. 実際にperlリポジトリの一部であるそのようなシステムを誰かが使用しましたか

本当の目標は、整理されていない perl スクリプトを大量に持たないようにし、情報検索にある程度の管理と組織を配置することです。また、perl を使用して必要な Web 部分を実行できることもわかっていますが、前に述べたように、perl に焦点を合わせ続けようとしています。しかし、私はこれをすべて perl ソリューションにすることに反対ではないようです。

すべての提案や意見を受け入れます。

ありがとう

0 投票する
1 に答える
766 参照

nutch - nuch 検索エンジンでカスタム フィールドを作成する方法は?

Nutch 検索エンジンでカスタム フィールドを作成したいですか? 私が従う手順は何ですか?

0 投票する
1 に答える
788 参照

solr - solr admin は、nutch を統合した後に 404 エラーを返します

http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/の指示に従いました

その前にsolrを起動して実行していたので、テストケースを処理したり、管理ページにアクセスしたりできました.

指示に従って、nutch schema.xml を solr にコピーしました。機能し、管理者にアクセスできました。

solrconfig.xml に requesthandler スニペット (Web サイトの 5d を参照) を追加すると、管理ページに移動すると、突然「HTTP エラー: パス RequestURI=/solr/admin/index.jsp に 404 コア名がありません」が表示されなくなりました。

requesthandler スニペットの何が原因で管理者が失敗するのかわかりません。2月を利用。solrの26ビルド。