問題タブ [druid]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Druid データベースからのランダム サンプリング
Druid、特に RDruid を使い始めたばかりで、データセットが非常に大きいため、DB からランダム化された小さなサンプルを取得したいと考えています。
RDruid を使用すると、次のようなクエリがあります。
基礎となるデータのランダムな部分に基づいて、時間ごと/分ごとのロールアップを構築したいと考えています。
これは可能ですか?おそらく、基になるデータ レコードにランダムな 4 桁の数字/文字列を割り当てて、一致するルールを持つレコードのみをロールアップするフィルターを適用するようなことを試すことができます。
たとえば、ランダム文字列が > 8888 の場合、8889 から 9999 までのすべてのレコードが選択されます。
何か案は?
mysql - mysql から druid へのデータのインポート
私はすべてのデータ ストレージとクエリに mysql を使用しています。しかし、テーブルのサイズが非常に大きくなったため、結果を得るまでに数時間かかる場合があります。クエリの最適化やテーブルの適切なインデックス作成など、可能な限りの対策を講じました。
だから私はドルイドを使うことを考えていました。私は以前にドルイドを扱ったことがありません。すべてのテーブル、データを mysql から druid にインポートする必要があると思います。どこから始めればよいかわかりません。ですから、誰かが親切に私を助けてくれれば、本当に感謝しています。前もって感謝します。
counting - hyperloglog を時系列ストリームに適用する方法
HLL を使用したセットのカーディナリティのカウントを時系列分析に使用する方法について、誰かが説明したり、説明にリンクしたりできますか?
druid.ioがまさにこれを行うと確信していますが、特定のライブラリ/データベースまたは特定の HLL 実装なしで、HLL のみでこれを行う方法の一般的な説明を探しています。
これを行う単純な方法は、カウントするものにタイムスタンプをプレフィックスすることです。たとえば、1000001 秒から 1000060 秒までのイベントをカウントする場合、redis HLL API を例として使用します。
これが持つ問題の 1 つに過ぎません。たとえば、最後の 1 分間の特定のイベントの数を調べるために、特定の範囲内の各秒を反復処理する必要があるということです。
hadoop - ドルイドは Hadoop を置き換えることができますか?
Druid は、リアルタイム処理とバッチ処理の両方に使用されます。しかし、それは Hadoop を完全に置き換えることができるのでしょうか? そうでない場合、なぜですか?ドルイドに対するhadoopの利点は何ですか?druid が hadoop と一緒に使用されていることを読みました。では、Hadoop の使用を避けることはできるのでしょうか?
real-time - DRUID.io 対 Esper CEP
ここ数日、ドルイドについて少し読んでいて、これがエスパーとどう違うのか疑問に思っていました。リアルタイム イベント処理に Esper を使用しています。Druid は、クエリのような単純な JSON とはるかに単純なインターフェイスでそれを行っているように感じます。
誰かが私を訂正して、より多くの光を共有してもらえますか?
編集
両方が共存できますか?
java - java.sql.SQLException: SQL インジェクション違反、拒否オブジェクト: dbms_random
タイトルのとおり、次のような関数SQLException
を使用すると、次のようになります。dbms_random
しかし、SQL は PL/SQL で正しく実行されます。
また、私が使用している接続プールは Druid です。
例外スタックは次のとおりです。
puppet - パペットスクリプトからドルイドを起動する方法
ローカルの vagrant マシンで druid を実行しようとしています。パペットを使用してアーカイブを取得したり、それらを抽出したりします。ただし、ヒストリカル ノードとオーバーロード ノードを実行しようとすると問題が発生します。
次のコードを使用してサーバーを起動します。
}
しかし、次のエラーが原因でオーバーロード サーバーとヒストリカル サーバーの両方が失敗します。
これを修正する方法はありますか?これらのサーバーをコマンドラインから次々と起動すると(ヒストリカルが起動するまで待ってからオーバーロードを起動します)、すべて正常に動作します。
amazon-s3 - Whirr を使用して Druid クラスターを起動する
Druid Web サイトhttp://druid.io/docs/latest/Booting-a-production-cluster.htmlの手順に従って、Whirr を使用して Druid クラスターを起動しようとしています。
クラスターはインスタンス化されていますが、さまざまな Druid ノード (overlord、middleManager、ヒストリカル、およびコーディネーター) で次のエラーが発生し、一部の依存関係をダウンロードすると失敗します。
io.druid.extensions:druid-s3-extensions:jar:0.6.115 で依存関係を収集できませんでした
誰かが同様の問題に直面したか、それを解決する方法を知っていましたか?
cassandra - ドルイドはカサンドラに取って代わることができますか?
Druid よりも Cassandra が効果的に対応できるユースケースは多くないと思わずにはいられません。時系列ストアまたはキー値として、Druid でクエリを記述して、必要に応じてデータを抽出できます。ここでの議論は、カサンドラよりもドルイドを正当化することに関連しています。
Cassandra の高速書き込み以外に、他に何かありますか? 特に、Druid のリアルタイム集計/およびクエリ機能を考えると、Cassandra に勝るものはありません。
答えられるより率直な質問については、Druid は Cassandra と比較して機能のスーパーセットを提供していないので、Druid をすぐに使用したほうがよいのではないでしょうか? すべてのユースケースで?