HDFS と GridFS は分散ファイル保存のための 2 つの優れたテクノロジですが、それらの違いは何ですか? どのタイプの問題がそれぞれに適していますか?
4 に答える
HDFSはバッチ処理を目的としています(多くのファイルを1つずつ読み取るクエリを実行する場合)が、ランダムアクセス操作を実行する場合は本当にひどく、それを維持するのは首の痛みです。デプロイすることもできます(ご存知のとおり、これらすべてのZookepers、Namenodesなど)。一方、GridFSはバッチでは低速ですが、ランダムアクセスを多数実行する場合はそうではありませんが、HDFSと比較してストレージオーバーヘッドが大きくなります。
analitycsにはHDFSを使用し、WebサイトのバッキングにはGridFSを使用する必要があると思います。
Hadoopを使用している場合はHDFSを使用し、MongoDBを使用している場合はGridFSを使用します。ランダムなファイルを保存するだけでも、それほど優れていません。これらは、分析プラットフォームで動作するように構築されています。
分析ジョブやマップ削減ジョブを使用せずにファイルのみを保存する場合は、GridFS を使用することをお勧めします。カスタマイズと保守が容易になります。ファイルホスティングアプリケーションに使用しました。この場合の HFDS はやり過ぎです。
GridFs は他の fs に比べて少し遅いです...最初は ceph のような他の FS について考えてください...
分散ファイル システム - フリー百科事典ウィキペディア -> http://en.wikipedia.org/wiki/Distributed_file_system
HDFS は本当は fs だと思いますが、GridfS はデータベース グリッドのみです
最後にベンチマークを使用しますが、何かを提案することはほとんどありません 分散ファイルシステム
- nginx-gridfs ベンチマーク生の結果 | ypass.net -> http://www.ypass.net/solaris/nginx-gridfs-benchmarks/rawresults.php