2

私のラムダ アーキテクチャでは、不変データを格納するために HDFS と Cassandra のどちらを使用するかについて議論しています。オンライン リクエストなどに対応するには Cassandra が必要なので、技術スタックの必須部分です。現在、必要がなければ、スタックに新しいツール (HDFS) を導入したくありません。私の質問は、HDFS を使用せず、Cassandra を使用して不変データもホストする場合、何が欠けているのでしょうか。

編集:

HDFS は分散ファイルシステムであり、Cassandra は NoSQL DB であることを理解しています。それでも、どちらもデータ レプリケーションをサポートし、どちらも高スループットの書き込みをサポートします。さらに、Cassandra は低潜在データ検索をサポートします。では、HDFS が私に多くのリフトを提供しないと言っているのは正しいでしょうか?

4

2 に答える 2

0

私が理解しているように、Lambda アーキテクチャのサービング レイヤーを明確にしようとしています。そうであれば、バッチ ビューとリアルタイム ビューをデータベースに保存します。そして、私が理解しているように、バッチレイヤーに Hadoop クラスターがありません。また、バッチ ビューは HDFS で完了していません。この時点で、アーキテクチャは HDFS の外部にあります。HBase は、Hadoop ファイル システム上に構築された分散列指向データベースです。これはオープンソース プロジェクトであり、水平方向にスケーラブルです。Hadoop クラスターが必要ない場合は、HBase を省略します。Cassandra は分散 NoSQL データベース (列指向) であり、Hadoop クラスターおよび HDFS の外部で動作します。あなたのアーキテクチャとニーズを正しく理解していれば、Cassandra が最適だと思います。

さらに、このリンクから Lambda アーキテクチャに関する簡単な情報を取得できます。 http://artofbigdata.blogspot.com.tr/2016/01/lambda-architecture.html

于 2016-02-05T10:58:34.830 に答える
0

HDFS は、保存するさまざまなファイル形式をサポートしています。たとえば、シーケンス ファイル、Avro、Parquet など。アプリケーションのニーズに適したファイル形式を選択できます。

また、SQL に似たクエリを使用してデータを効率的に読み取ることができることにも注意してください。

そのため、データをホストするために Cassandra 上の HDFS でさまざまなデータ モデルを使用できます。

于 2015-11-19T08:58:13.630 に答える