あなたが本当に達成したいことは何ですか、それはあなたの質問からは明らかではありません。
HDFS とデータベースの間には間接的な関係のみがあります。HDFS はファイル システムであり、データベースではありません。Hadoop は、並列処理フレームワーク ( MapReduce ) とファイル システム HDFS を組み合わせたものです。並列処理フレームワークは、InputFormat と呼ばれるものを使用して、HDFS ファイル システムからデータのチャンクを取得します。Oracle NoSQL Database (ONDB)、Cassandra、Riak などの一部のデータベースには、データを含む InputFormat を返す機能があるため、HDFS からのデータと同様に、MapReduce 処理のソースとして参加できます。
もう一度言いますが、あなたは何をしたいですか?
Hadoop と HDFS は一般に、高レベルの処理に必要なモデルにまだ集約および/または構造化されていない大量のデータがある場合に役立ちます。場合によっては (実際に必要以上に頻繁に強制されることもありますが)、Hadoop を使用して、適切なモデルを活用する別の処理/ストレージ テクノロジで通常行われる高レベルの処理を行うことができます。MapReduce で実行されていた検索インデックスの作成である Google Instant を考えてみてください。その後、モデルを開発し、現在はより良いアプローチを使用しています。MapReduce だけで Google Instant を実行することはできませんでした。