私は実際に、Hive on CDH 5.0 with Yarn を使用して、Hadoop でソリューションを実装しようとしています。したがって、私のアーキテクチャは次のとおりです: 1 Namenode 3 DataNode
私のノードは 2vCPU @2.27 と 8 GO RAM で仮想化されています
それで、いくつかのリクエストを試してみたところ、いくつかの結果が得られました。その後、結果を比較するために、同じデータセットを使用して基本的な MySQL で同じリクエストを試しました。
実際、MySQL は Hive よりも非常に高速です。だから私はその理由を理解しようとしています。ホストのせいでパフォーマンスが悪いことはわかっています。私の主な質問は次のとおりです。私のクラスターは適切にサイジングされていますか?
この量のデータに対して同じ DataNode を追加する必要がありますか (私の意見ではそれほど膨大ではありません)。
また、誰かがほぼ同じアーキテクチャでリクエストを試みた場合は、結果を共有してください。
ありがとう !