問題タブ [apache-drill]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - Apache Drill はテーブル名の SQL ステートメントを解析できますか?
Eclipse に既存の Java プロジェクトがあり、ステートメント内のテーブル名を見つけるためにユーザーが入力する SQL ステートメントを解析できるようにしたいと考えています。Apache Drill でこのタスクを実行することは可能ですか? もしそうなら、どうすれば実行できますか?
Drill のドキュメントを見てきましたが、後でコマンド プロンプトで使用できる関数を Eclipse で作成する方法しか見つかりません。ただし、Java プロジェクト内である種の解析関数を使用して、ユーザー入力のテーブル名を見つける方法が必要です。
apache-drill - apache-drill のストレージ プラグインに bootstrap-storage-plugins.json ファイルを使用する際の例外
MongoDB
inのストレージ プラグインを追加したいapache-drill
。ドキュメントを読んだ後、プログラムで次の 2 つの方法でそれを行うことができることがわかりました。
- 残りの API
- 構成に bootstrap-storage-plugins.json を使用する
Javaコードに2番目の方法を使用しています。
私のコードの有用な部分:
ブートストラップ ストレージ プラグイン.json:
しかし発砲時
次の例外が発生しました:
org.apache.calcite.sql.validate.SqlValidatorException SEVERE: org.apache.calcite.sql.validate.SqlValidatorException: テーブル 'mongo.testDB.testCollection' が見つかりません 2015 年 8 月 12 日 3:47:05 AM org.apache.calcite .runtime.CalciteException SEVERE: org.apache.calcite.runtime.CalciteContextException: 行 1、列 15 から行 1、列 19: テーブル 'mongo.testDB.testCollection' が見つかりません java.sql.SQLException: 解析エラー: 行から1、列 15 から行 1、列 19: テーブル 'mongo.testDB.testCollection' が見つかりません
bootstrap-storage-plugins.json
私のクラスパスにあります。追加情報を提供する必要がありますか?
編集:
クエリshow databases
を実行しましたが、 のスキーマが表示されませんMongoDB
。表示されているのは次のとおりです。
hadoop - Mapreduce 対 Spark 対 Storm 対 Drill - 小さなファイルの場合
spark がインメモリ計算を行い、MapReduce よりもはるかに高速であることは知っています。私は、言うレコード < 10000 に対してスパークがどの程度うまく機能するのだろうかと思っていました。Hadoop データ プラットフォームに膨大な数のファイル (各ファイルには約 10000 レコード、たとえば 100 列ファイル) が入っており、hbase にロードする前にデータ品質チェックを実行する必要があります。
バックエンドで MapReduce を使用するハイブでデータ品質チェックを行います。ファイルごとに約8分かかり、それは私にとってはかなり悪いことです. Spark は 2 ~ 3 分のパフォーマンスを向上させますか?
ベンチマークを行う必要があることはわかっていますが、実際にスパークを使用する前に、ここで基本を理解しようとしていました。私が覚えているように、初めて RDD を作成するのはオーバーヘッドになり、着信ファイルごとに新しい RDD を作成する必要があるため、少し費用がかかります。
スパーク、ドリル、ストーム、またはMapreduce自体のどれが私にとって最良のアプローチであるか混乱していますか?
sql - Apache Drill マッシュ ファイルのメタデータと結果
Apache Drill に関する私の現在のクエリは次のとおりです -
私がやりたいことは、フォルダー内の各.csvファイルのmodificationTimeメタデータを次のような列として取得することです-
次のコマンドを実行すると、modificationTime メタデータが見つかります。
現在のバージョン 1.1 または 1.0 でこれを実現する方法はありますか?
更新 1
私が本当に探しているのは、個々のファイルに対する select ステートメントの結果セットに含まれるファイル メタデータです。
ディレクトリ構造が次の場合-
書きたいクエリの種類 -
期待される結果 -
hadoop - Performance of Apache Drill
Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.