現在、Nutch 2.2.1 と HBase 0.90.4 を使用しています。シード内の約 10 個の URL から約 30 万個の URL を期待しています。Nutch 1.6 を使用している間、私はすでに多くのことを生成しました。私はデータを操作したいので、Nutch 2.2.1 + HBase ルートを選びました。しかし、あらゆる種類の奇妙なエラーが発生し、クロールが進行していないようです。
次のようなさまざまなエラー:
Zookeeper.ClientCnxn - サーバーのセッション null、予期しないエラー、ソケット接続を閉じて再接続を試みています。- 私はこれをより頻繁に取得します
bin/crawl: 164 行目: 終了- フェッチ ステップでこのエラーが発生し、クロールが突然終了します。
RSS 解析エラー
オールインワンのクロール コマンドを使用しています -bin/crawl urls 1 http://localhost:8983/solr/ 10
<crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>
どこが間違っているのか教えてください。Nutch サイトから推奨されるクイック スタート ガイドに従って、 Nutch 2.2.1 をインストールし、HBase (スタンドアロン) をインストールしました。クイックスタート ガイド リンクからの HBase 0.90.4 スタンドアロン セットアップに従うだけでは、300K のクロールされた URL を達成するのに十分かどうかはわかりません。
編集 # 1: RSS 解析エラー - ログ情報
エラー tika.TikaParser - 解析エラーhttp://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS 解析エラー