ローカル ファイル システムにある Shark の外部テーブルからのクエリは、HDFS にあるデータを使用する場合と比較して、クエリ パフォーマンスの点でどうですか? サメのクエリを実行するために単一のハイエンド サーバーを使用する予定で、hadoop/hdfs をインストールする必要があるかどうか疑問に思っていました。
質問する
47 次
1 に答える
1
通常、単一のハイエンド サーバーで実行する予定がある場合は、HDFS をセットアップする必要はありません。このような場合、ファイル メタデータを取得するためだけに localhost への余分なラウンドトリップを実行する余分なオーバーヘッドや、 HDFS マッピング ファイルを、それ自体がローカル ファイルシステム上のファイルである一連の不透明なブロックにマッピングします。
Shark が Hadoop RawLocalFileSystem (HDFS が明示的に設定されていない場合にロードされるデフォルトの「Hadoop ファイルシステム」) を通過することで、Shark が自動的に利益を得ることに注意してください。これにより、Shark はHDFS と同等のものを使用していると効果的に認識します。これは、将来、実際に分散クラスターで実行する必要がある場合、fs.default.name を変更するだけで、他のすべてが単一のマシンのセットアップで慣れているのと同じように機能することを意味します。 .
于 2014-08-16T05:03:31.643 に答える