Nutch2.1をローカルで問題なく体験しました。3台のマシンの分散クラスターも試してみました。現在、アマゾンウェブサービスで実行するかどうかについて話し合っています。AWSの経験はあまりありません。私の質問は、クラウド上でNutch2.1のクロールとインデックス作成を試すことは可能であり、必要であるかということです。どのような長所と短所がありますか?
ありがとう。
(投資を計画している) AWS クラスターと同じ容量のクラスターがある場合、以下の #1 以外の利点はありません。
AWS に切り替える前に考慮すべきいくつかの要因を次に示します。
クロールされたホストの地域性: ヨーロッパにいて、クロールしたい Web サイトが遠く離れた場所にホストされている場合は、たとえばオーストラリアです。オーストラリアにある AWS ノードを購入すると、ヨーロッパからクロールするよりも、そのデータをクロールする方がはるかに高速になります。
コスト: AWS マシンを使用するには、時間単位で支払う必要があります。あなたはそれを買う余裕がありますか?そうでない場合は、自分のマシンを使用することをお勧めします
現在のクラスター容量: 現在のクラスターには、クロールされたデータの量を処理するのに十分な容量とスペースがありますか? Nutch は、汎用ハードウェア上で動作するように設計された Hadoop 上で動作するため、計算速度の点で問題はないと思います。クラスターは、クローラーによってフェッチされるデータ全体に対応できますか?
データ量: クロールされているデータの概算は? それより少ない場合、AWS クラスターを使用しても意味がありません。
時間の制約: クロールの完了までの時間はありますか?
これをプロのプロジェクトで行う場合は、これらの要因を考慮する必要があります。
楽しみ/趣味/学習のためにそれを行っている場合は、AWS の無料利用枠ノードを使用してください。これらは、Amazon が無料で提供する低容量ノードです。新しいことを学ぶのは楽しいです:)
AWS の利点:
AWS の欠点: