問題タブ [apache-drill]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
131 参照

sql - Apache Drill はテーブル名の SQL ステートメントを解析できますか?

Eclipse に既存の Java プロジェクトがあり、ステートメント内のテーブル名を見つけるためにユーザーが入力する SQL ステートメントを解析できるようにしたいと考えています。Apache Drill でこのタスクを実行することは可能ですか? もしそうなら、どうすれば実行できますか?

Drill のドキュメントを見てきましたが、後でコマンド プロンプトで使用できる関数を Eclipse で作成する方法しか見つかりません。ただし、Java プロジェクト内である種の解析関数を使用して、ユーザー入力のテーブル名を見つける方法が必要です。

0 投票する
1 に答える
256 参照

apache-drill - apache-drill のストレージ プラグインに bootstrap-storage-plugins.json ファイルを使用する際の例外

MongoDBinのストレージ プラグインを追加したいapache-drill。ドキュメントを読んだ後、プログラムで次の 2 つの方法でそれを行うことができることがわかりました。

  1. 残りの API
  2. 構成に bootstrap-storage-plugins.json を使用する

Javaコードに2番目の方法を使用しています。

私のコードの有用な部分:

ブートストラップ ストレージ プラグイン.json:

しかし発砲時

次の例外が発生しました:

org.apache.calcite.sql.validate.SqlValidatorException SEVERE: org.apache.calcite.sql.validate.SqlValidatorException: テーブル 'mongo.testDB.testCollection' が見つかりません 2015 年 8 月 12 日 3:47:05 AM org.apache.calcite .runtime.CalciteException SEVERE: org.apache.calcite.runtime.CalciteContextException: 行 1、列 15 から行 1、列 19: テーブル 'mongo.testDB.testCollection' が見つかりません java.sql.SQLException: 解析エラー: 行から1、列 15 から行 1、列 19: テーブル 'mongo.testDB.testCollection' が見つかりません

bootstrap-storage-plugins.json私のクラスパスにあります。追加情報を提供する必要がありますか?

編集:

クエリshow databasesを実行しましたが、 のスキーマが表示されませんMongoDB。表示されているのは次のとおりです。

0 投票する
1 に答える
623 参照

hadoop - Mapreduce 対 Spark 対 Storm 対 Drill - 小さなファイルの場合

spark がインメモリ計算を行い、MapReduce よりもはるかに高速であることは知っています。私は、言うレコード < 10000 に対してスパークがどの程度うまく機能するのだろうかと思っていました。Hadoop データ プラットフォームに膨大な数のファイル (各ファイルには約 10000 レコード、たとえば 100 列ファイル) が入っており、hbase にロードする前にデータ品質チェックを実行する必要があります。

バックエンドで MapReduce を使用するハイブでデータ品質チェックを行います。ファイルごとに約8分かかり、それは私にとってはかなり悪いことです. Spark は 2 ~ 3 分のパフォーマンスを向上させますか?

ベンチマークを行う必要があることはわかっていますが、実際にスパークを使用する前に、ここで基本を理解しようとしていました。私が覚えているように、初めて RDD を作成するのはオーバーヘッドになり、着信ファイルごとに新しい RDD を作成する必要があるため、少し費用がかかります。

スパーク、ドリル、ストーム、またはMapreduce自体のどれが私にとって最良のアプローチであるか混乱していますか?

0 投票する
1 に答える
322 参照

sql - Apache Drill マッシュ ファイルのメタデータと結果

Apache Drill に関する私の現在のクエリは次のとおりです -

私がやりたいことは、フォルダー内の各.csvファイルのmodificationTimeメタデータを次のような列として取得することです-

次のコマンドを実行すると、modificationTime メタデータが見つかります。

現在のバージョン 1.1 または 1.0 でこれを実現する方法はありますか?

更新 1

私が本当に探しているのは、個々のファイルに対する select ステートメントの結果セットに含まれるファイル メタデータです。

ディレクトリ構造が次の場合-

書きたいクエリの種類 -

期待される結果 -

0 投票する
2 に答える
5096 参照

hadoop - Performance of Apache Drill

Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.