Hadoop は実際には 1 つの物理的な場所にあるクラスターでのみ動作するように設計されており、多数の広く分散したノード (複数のサイトからインターネット経由で分散クラスターを実行するなど) では動作しないことを示唆するいくつかの記事を読みました。
複数のサイトで Hadoop を使用しようとした実際の経験がある人はいますか? どのような問題が発生しますか? それとも、別のフレームワーク (BOINC など) を使用する方がよいのでしょうか。
Hadoop は実際には 1 つの物理的な場所にあるクラスターでのみ動作するように設計されており、多数の広く分散したノード (複数のサイトからインターネット経由で分散クラスターを実行するなど) では動作しないことを示唆するいくつかの記事を読みました。
複数のサイトで Hadoop を使用しようとした実際の経験がある人はいますか? どのような問題が発生しますか? それとも、別のフレームワーク (BOINC など) を使用する方がよいのでしょうか。
比較的ローカルなノードのセットで実行する場合と、広く分散されたノードのセットで実行する場合に違いがあるとすれば、大量のデータをノード間でやり取りするために必要な時間が長くなることです。大量のデータのクランチ、集約、および結合に関連する問題がある場合、必然的にノード間で大量のデータを送信することになります。つまり、選択したプラットフォーム (hadoop、storm など) に関係なく、この問題に対処する必要があります。BOINC やその他のボランティアベースのシステムの方が安価かもしれませんが、それでも実装には高いデータ転送コストがかかります。さらに、ノードの異質性をミックスに導入する可能性が高く、実装の開発とデバッグがさらに興味深いものになります。
ところで、hadoop と BOINC は 2 つの非常に異なる動物であり、非常に異なる問題を解決します。