2

Web サイトをクロールするために「Nutch 検索エンジン」をセットアップしました。ここで、Nutch 検索エンジンと対話するための php API を作成する必要があります。私は2つのことをする必要があります:

  1. PHP スクリプトを使用して、どの URL をクロールするかを Nutch に指定する必要があります (このために、 http: //www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2 からいくつかのポインターがあります)。 .html

  2. PHP スクリプトを使用して、Nutch のクロール DB からクロール結果を取得する必要があります。私はこれに関する助けを見つけることができないようです(または、すでにそこにある場合、私は愚かすぎて答えを見ることができないかもしれません:()

PHP API を使用して Nutch のクロール結果を読み取ったことがある場合は、いくつかの指針を教えてください。

必死に助けを待っています。

4

4 に答える 4

0

質問 #1 では、これらの URL をクローラーに挿入する必要があります。比較的簡単: + 追加したい URL を含むファイルを作成 + これらの URL で inject コマンドを発行 (前のクロール/フェッチ/インデックス サイクルの終了を待つ必要がある場合があります) + 新しいクロールを開始します

注:URLも除外されていないことを確認する必要があります

于 2011-01-07T07:06:26.670 に答える
0

検索または別の検索プラットフォームに solr を使用する必要があります。nutch は単なるクローラーであり、アイデアは単純です。

  • ==>クロールのナット
  • ==> インデックスを作成するsolr
  • ==> インデックス内を検索するためのインターフェースを構築します (ステップ 2)。このステップにはSolariumBundle を使用しました
于 2014-01-23T15:03:51.377 に答える
-1

#2に関しては、NutchはJSPとJavaで書かれており、PHPの実装については知りません(興味がある場合)。したがって、基本的には、PHP スクリプトと Nutch サーバーの間に AJAX または SOAP のような通信スキームを作成する必要があります。助けを求めて Nutch メーリングリストを試してみましたか?

于 2011-01-07T07:09:57.073 に答える