hadoop - 実稼働用の Nut と HBase

Question

現在、Nutch 2.2.1 と HBase 0.90.4 を使用しています。シード内の約 10 個の URL から約 30 万個の URL を期待しています。Nutch 1.6 を使用している間、私はすでに多くのことを生成しました。私はデータを操作したいので、Nutch 2.2.1 + HBase ルートを選びました。しかし、あらゆる種類の奇妙なエラーが発生し、クロールが進行していないようです。

次のようなさまざまなエラー:

Zookeeper.ClientCnxn - サーバーのセッション null、予期しないエラー、ソケット接続を閉じて再接続を試みています。- 私はこれをより頻繁に取得します
bin/crawl: 164 行目: 終了- フェッチステップでこのエラーが発生し、クロールが突然終了します。
RSS 解析エラー

オールインワンのクロールコマンドを使用しています -bin/crawl urls 1 http://localhost:8983/solr/ 10

<crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>

どこが間違っているのか教えてください。Nutch サイトから推奨されるクイックスタートガイドに従って、 Nutch 2.2.1 をインストールし、HBase (スタンドアロン) をインストールしました。クイックスタートガイドリンクからの HBase 0.90.4 スタンドアロンセットアップに従うだけでは、300K のクロールされた URL を達成するのに十分かどうかはわかりません。

編集 # 1: RSS 解析エラー - ログ情報

エラー tika.TikaParser - 解析エラーhttp://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS 解析エラー

hadoop - 実稼働用の Nut と HBase

0 に答える 0

Related

Reference