hadoop - Hadoop とデータベースの関係

Question

わかりました..私は、非常に基本的な質問のように思われるこの質問に対する答えを求めて、Web とこのサイトを検索してみました。私はビッグデータ処理の初心者です。

HDFS とデータベースの関係を知りたいです。HDFS を使用するには、データが何らかの NoSQL 形式であることが常に必要ですか? HDFS を使用するときに常に接続される特定のデータベースはありますか? Cloudera が Hadoop ソリューションを提供し、HBase を使用していることは知っています。

リレーショナルデータベースを Hadoop のネイティブデータベースとして使用できますか?

score 1 · Accepted Answer

あなたが本当に達成したいことは何ですか、それはあなたの質問からは明らかではありません。

HDFS とデータベースの間には間接的な関係のみがあります。HDFS はファイルシステムであり、データベースではありません。Hadoop は、並列処理フレームワーク ( MapReduce ) とファイルシステム HDFS を組み合わせたものです。並列処理フレームワークは、InputFormat と呼ばれるものを使用して、HDFS ファイルシステムからデータのチャンクを取得します。Oracle NoSQL Database (ONDB)、Cassandra、Riak などの一部のデータベースには、データを含む InputFormat を返す機能があるため、HDFS からのデータと同様に、MapReduce 処理のソースとして参加できます。

もう一度言いますが、あなたは何をしたいですか？

Hadoop と HDFS は一般に、高レベルの処理に必要なモデルにまだ集約および/または構造化されていない大量のデータがある場合に役立ちます。場合によっては (実際に必要以上に頻繁に強制されることもありますが)、Hadoop を使用して、適切なモデルを活用する別の処理/ストレージテクノロジで通常行われる高レベルの処理を行うことができます。MapReduce で実行されていた検索インデックスの作成である Google Instant を考えてみてください。その後、モデルを開発し、現在はより良いアプローチを使用しています。MapReduce だけで Google Instant を実行することはできませんでした。

score 1 · Accepted Answer

Hadoop の利点は、レプリケーションを使用してデータを格納できることです。そのため、Hadoop を "オフ" にすることはできません (SQL Server など)。Hadoop で動作するようにセットアップできる HBase、Hive、および Pig 環境 (およびその他) があり、それらは通常の SQL 言語のように見えます。彼らが言うように、15 分で 0 からビッグデータまで何かを試してみたい場合は、Hortonworks の Sandboxをチェックしてください。お役に立てれば。

hadoop - Hadoop とデータベースの関係

3 に答える 3

Related

Reference