1

単一の Windows マシンで Nutch 2.1 をテストしようとしています。次のコマンドは死にます:

nutch crawl seeds -dir crawl -solr http://somehost:8983/solr -depth 2 -topN 2

...いくつかの例外のトレースバックがあります:

  • java.net.ConnectionException: Connection refused
  • GoraException
  • SQLTransientConnectionException
  • org.hsqldb.HsqlException

これは、この投稿と同じ問題です: Nutch 2 の実行時に接続拒否エラーが発生しました

Nutch 2 は、ある種のデータベースが既にインストールされていることを望んでいるようですが、私が見ることができる (まばらな) ドキュメントには、それについての言及はありません。

実稼働環境は最終的には Linux/Hadoop クラスターになりますが、今のところ、単純なローカル システムをすぐに使えるようにしようとしています。

では、単純な Nutch データベースにはどのようなオプションがあるのでしょうか? Nutch と Gora にデータベースについてどのように伝えますか? Hadoop クラスターを起動して実行するとすぐに、HBase が適切な答えになる可能性があります。でも; それまでの間、単一のシステムでの最初の調査で機能する、単純で遅いデータベースはありますか?

4

2 に答える 2

4

MYSQL と HBASE で試しました。

MYSQL の場合、このリンクは問題のほとんどを解決するのに役立ちます: http://nlp.solutions.asia/?p=180

HBASE の場合、0.90.x より上のバージョンでは問題が発生します (無効なホスト値のペア)。0.90.5で動作させることができました

于 2012-11-23T06:31:19.567 に答える
3

Nutch 2.1 のデータベース接続情報は、conf/gora.properties ファイルで指定されています (見るべきでした)。

于 2012-11-21T21:04:49.733 に答える