1

端末からコマンドをトリガーしてクロールするために、nutch-1.6 を使用しています。インターネットで検索したところ、0.9、1.0 などの以前のバージョンの Nutch には、Tomcat サーバーにデプロイできる war ファイルが付属していることがわかりましたが、nutch 1.6 を Tomcat にデプロイするためのドキュメントは見つかりませんでした。

毎回ターミナルからコマンドをトリガーする代わりに、tomcat に nutch をデプロイしてクロール システムを自動化し、Web ページからコマンドを発行できるようにしたいと考えています。

4

1 に答える 1

0

Nutch 2.2.1 には、ジョブの開始、データベース (構成されたストア) からのデータの取得、ジョブの停止などのための REST ベースの API があります。

  • ジョブ マネージャー API
  • データベース読み取り API
  • 構成 API

Nutch2 チュートリアル wiki

Eclipse での Nutch の実行

Nutch 2.2.1 を起動するには

./bin/nutch nutchserver 9000

サーバーが正常に起動したら、残りのリクエストを使用してリソースにアクセスできます

  • 詳細設定を取得する
    http://localhost:9000/nutch/confs/default
  • サーバーで新しいクロール ジョブを作成する
    http://localhost:9000/nutch/jobs
    ContentType: application/json
    http メソッド タイプ: PUT
    ペイロード:

      {
        "crawl":"123",
        "type":"crawl",
        "conf":"default",
        "args":
            { "class":"org.apache.nutch.crawl.Crawler", 
              "seed":"http://www.somesite.com", 
               "seedDir":"runtime/local/url/url.txt", "depth":2 }
    
      }
于 2014-05-15T12:08:20.030 に答える