bigdata - Shark 外部テーブルのパフォーマンス

Question

ローカルファイルシステムにある Shark の外部テーブルからのクエリは、HDFS にあるデータを使用する場合と比較して、クエリパフォーマンスの点でどうですか? サメのクエリを実行するために単一のハイエンドサーバーを使用する予定で、hadoop/hdfs をインストールする必要があるかどうか疑問に思っていました。

score 1 · Accepted Answer

通常、単一のハイエンドサーバーで実行する予定がある場合は、HDFS をセットアップする必要はありません。このような場合、ファイルメタデータを取得するためだけに localhost への余分なラウンドトリップを実行する余分なオーバーヘッドや、 HDFS マッピングファイルを、それ自体がローカルファイルシステム上のファイルである一連の不透明なブロックにマッピングします。

Shark が Hadoop RawLocalFileSystem (HDFS が明示的に設定されていない場合にロードされるデフォルトの「Hadoop ファイルシステム」) を通過することで、Shark が自動的に利益を得ることに注意してください。これにより、Shark はHDFS と同等のものを使用していると効果的に認識します。これは、将来、実際に分散クラスターで実行する必要がある場合、fs.default.name を変更するだけで、他のすべてが単一のマシンのセットアップで慣れているのと同じように機能することを意味します。 .

bigdata - Shark 外部テーブルのパフォーマンス

1 に答える 1

Related

Reference