問題タブ [apache-drill]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - ハイブとドリルはどのように統合されますか?
ドリルは、待ち時間の長い Hive とは対照的に、アドホックなドリル ダウン クエリ用の興味深いツールのように見えます。
これら2つの間に適切な統合があるはずですが、見つけられませんでした。
今日、すべての作業が Hive/Shark で行われていると仮定しましょう。どうすればそれを Drill と統合できますか?
ドリル エンジンに切り替える必要はありますか?
Shark と Hive に似た統合を探しています。
json - JSON オブジェクトのファイルを Parquet ファイルに変換する
動機: データを Apache Drill にロードしたい。Drill が JSON 入力を処理できることは理解していますが、それが Parquet データでどのように機能するかを確認したいと考えています。
最初にデータを Hive などにロードしてから、Parquet コネクタの 1 つを使用して出力ファイルを生成することなく、これを行う方法はありますか?
json - hbase に格納された json オブジェクトから複数の列をクエリする
1 つの列ファミリーに json データが格納されており、これにはいくつかの名前と値のペアがあります。さまざまな名前と値の組み合わせでこのデータをクエリしますが、これらのクエリは名前と値のペアに特に傾くことはありません (これにより、それらを列ファミリーに分割することが難しくなります)。
- これらのクエリのパフォーマンスを向上させる最善の方法は何でしょうか? セカンダリ インデックス、インパラ、フェニックスなどは役に立ちますか?
- それらを複数の列ファミリーに分割すると役立つでしょうか? hbase が 2 つまたは 3 つの列ファミリーに最適に機能することを考慮すると、これが正しいことかどうかはわかりません。
- ネストされたデータまたは json データを格納して優れたクエリ パフォーマンスを達成するための優れたシステムは何でしょうか? Apacheドリルのようなものは役に立ちますか?
mongodb - これは Spark/Apache Drill の使用例ですか?
2種類のデータがあります-
1) スキーマレス (完全にスキーマレスというわけではありませんが、列は時間の経過とともに増加し続けており、スキーマが変更されたときにロード/パブリッシュ ジョブを変更したくありません)。このデータは現在、key-val storage に保存されています。キーの数は約1000です。ペアの数は約7億です。
2) RDBMS テーブル - それぞれ数百万行のテーブルのセット。
上記のすべてのデータの分析 (できれば SQL を使用) を可能にするデータ ストアを作成する必要があります。私はこの問題のいくつかの解決策を検討していましたが、Spark や Apache Drill などでこの問題を解決できると感じました。これは Spark-Shark の正しい使用例ですか? このユースケースで使用できる他のデータストア/ソリューションは何ですか? Cassandra? モンゴDB?
ありがとう。
hadoop - すべての ANSI SQL 2003 クエリに対する Apache Drill サポート
Apache Drill のドキュメントで公開されているように、完全な ANSI SQL 2003 をサポートしています。私の質問は、HDFS/HIVE で行レベルのデータが更新または削除されたクエリを、Drill がどのように正確に実行できるかということです。HDFS のデータを変更できないことは周知のとおりです。もう 1 つお願いがあります。高度な認証情報が必要なため、「Apache Drill」のタグを作成してください。
json - 圧縮された gz ファイルを Apache Drill でクエリする
圧縮されていない JSON ファイルを問題なくクエリする Apache Drill がありますが、gz 圧縮された JSON アーカイブに苦労しています。
私の理解では、Drill は gz ファイルを処理できると私が信じていた Hadoop ファイル コネクタを使用していますが、Drill の JSON クエリ機能は常に .json ファイルにロックされているようです。
私はこのようなことを試みました:
ただし、ファイルが見つからないというエラーが発生します。これも試しました:
「無効な JSON マッピング」エラーが発生します。
apache - Web ブラウザーで boot2docker を使用して、Docker で 8047 の Apache Drill WebUI にアクセスできないのはなぜですか?
CONTAINER_ID を調べると、返されるポート情報は null です。
ドリル Web UI にアクセスできませんが、cp などのデフォルトのストレージ プラグインに対して sqlline は正常に動作しています。Web UI にアクセスできないため、新しいストレージ プラグインを構成できません。