SQL-on-semi 構造化データを実行するという要件のドリルを調査し始めました。Zookeeper を使用して 4 ノードのドリル クラスタをセットアップしました。それが実際にどのように機能するかについていくつか質問がありますが、
dfs (ローカル ファイル システム) を使用して分散モードで Drill を実行すると、ノードの 1 つ (たとえば n1) に 1GB の Json ファイルがあります。任意のノード (n1、n2、n3、n4) から sqlline を起動してクエリを実行できます。n1 にのみ日付があります。私の質問は
を。クエリはすべてのノードで実行されていますか? つまり、Drill はデータを他のノード n2、n3n4 に分散することによって、クエリの実行を並列化しますか?
b. NO の場合、すべてのノード n2、n3、n4 に同じファイルをコピーすることで、Drill の MPP アーキテクチャを活用できますか?