1

Nutch2.1をローカルで問題なく体験しました。3台のマシンの分散クラスターも試してみました。現在、アマゾンウェブサービスで実行するかどうかについて話し合っています。AWSの経験はあまりありません。私の質問は、クラウド上でNutch2.1のクロールとインデックス作成を試すことは可能であり、必要であるかということです。どのような長所と短所がありますか?

ありがとう。

4

1 に答える 1

3

(投資を計画している) AWS クラスターと同じ容量のクラスターがある場合、以下の #1 以外の利点はありません。

AWS に切り替える前に考慮すべきいくつかの要因を次に示します。

  1. クロールされたホストの地域性: ヨーロッパにいて、クロールしたい Web サイトが遠く離れた場所にホストされている場合は、たとえばオーストラリアです。オーストラリアにある AWS ノードを購入すると、ヨーロッパからクロールするよりも、そのデータをクロールする方がはるかに高速になります。

  2. コスト: AWS マシンを使用するには、時間単位で支払う必要があります。あなたはそれを買う余裕がありますか?そうでない場合は、自分のマシンを使用することをお勧めします

  3. 現在のクラスター容量: 現在のクラスターには、クロールされたデータの量を処理するのに十分な容量とスペースがありますか? Nutch は、汎用ハードウェア上で動作するように設計された Hadoop 上で動作するため、計算速度の点で問題はないと思います。クラスターは、クローラーによってフェッチされるデータ全体に対応できますか?

  4. データ量: クロールされているデータの概算は? それより少ない場合、AWS クラスターを使用しても意味がありません。

  5. 時間の制約: クロールの完了までの時間はありますか?

これをプロのプロジェクトで行う場合は、これらの要因を考慮する必要があります。

楽しみ/趣味/学習のためにそれを行っている場合は、AWS の無料利用枠ノードを使用してください。これらは、Amazon が無料で提供する低容量ノードです。新しいことを学ぶのは楽しいです:)

AWS の利点:

  1. クラスターをセットアップするためにマシンを購入する必要はありません。端末 PC 以外のハードウェアがなくても始められます。
  2. 地域性
  3. 機械の面倒を見る必要はありません。ノードがひどくクラッシュした場合は、そのままにしておきます (それはあなたの問題ではありません:P)。新しいものを購入し、クラスターに追加して先に進みます。

AWS の欠点:

  1. 高価です。
  2. AWS クラスター外の任意のマシンへのデータのコピーは課金されます。
  3. 調達した AWS ノードを放棄すると、データは保持されません。保存したい場合は、料金を支払い、S3 ストレージ サービスを使用してください。
于 2013-01-06T01:18:14.423 に答える