問題タブ [qubole]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - ハイブでの階層化サンプリング
以下は、 の値で階層化されたおよび列の10%
サンプルを返します。A
X
X
言い換えればX
、値を取る場合[X0, X1]
、次の結合を返します。
- 行の 10%
X = X0
- 行の 10%
X = X1
複数の列 (例: ) のタプルの値でクエリを階層化するにはどうすればよいですか?X
Y
たとえば、X
値[X0, X1]
を取り、 Y が値を取る場合[Y0, Y1]
、次の和集合であるサンプルを取得したいと思います。
X = X0
および行の 10%Y=Y0
X = X0
および行の 10%Y=Y1
X = X1
および行の 10%Y=Y0
X = X1
および行の 10%Y=Y1
hadoop - EMR の自動スケーリング - 必要ですか? EC2だけを使用する必要がありますか? Qubole を使用する必要がありますか?
プロビジョニングの時間を短縮するために、専用の EMR クラスターを 5 つのインスタンスで維持することにしました (約 5 つ必要になると予想されます)。さらに必要な場合は、何らかの自動スケーリングを実装する必要があると考えています。
EMR にはまったく詳しくありません。自動スケーリングはサポートされていますか? ドキュメントでこれを見つけました:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html
それは自動スケーリングを探す正しい場所ですか、それとも「サイズ変更」の意味を誤解していますか。EMR の利点の 1 つは「オンデマンド処理」であると読みましたが、インスタンス数を指定しなくても ec2 インスタンス間で負荷が分割されるため、ec2 インスタンスのスケーリングを独自に行っているという印象を受けます。 、つまり、自分自身を自動スケーリングする必要はありません。「オンデマンド処理」の意味を誤解していますか?
私が提供したサイズ変更リンクが私がやろうとしていることに対して適切である場合、サイズ変更のタイミングを決定した経験がある人はいますか? このドキュメントでは、サイズ変更のタイミングについてアラームを鳴らす方法などについては説明していません。通常の自動スケーリング サービスを使用しており、特定の条件に基づいてサイズを変更できますが、ここでは表示されません。
EMR の自動スケーリングが悪い考えであるかどうかはまだわかりません。(これを提供する Qubole のような企業全体が存在するため) または、EMR は必要なコンピューティング パワーを既に使用しているため、あまり役に立たないのでしょうか? EMR が実際に提供するものについてはあまり知らないので、混乱しているのかもしれません。
amazon-kinesis - kinesis で presto クエリを実行中にエラーが発生しました
キネシスで presto クエリを実行しているときに、次のエラーが発生します。
クエリ 20151031_142753_00003_xxxxx が失敗しました: アカウント xxxxxx のストリーム xxxxx のレートを超えました。(サービス: AmazonKinesis; ステータス コード: 400; エラー コード: ProvisionedThroughputExceededException; リクエスト ID: 94fb720d-7fdb-11e5-994c-83dc0xxxxxx)
qubole の presto-kinesis コネクタを使用しています。
任意のアイデア、修正方法
mysql - mysql と同様に、Qubole でテーブルを作成できません
Mysql で作成したテーブルと同様の外部テーブルを Qubole で作成したいと考えています。mysql でテーブルを作成するためのクエリは次のとおりです。
ハイブで同様のクエリを作成するのを手伝ってくれる人はいますか?
qubole - ジョブの出力に基づいて通知を送信する API はありますか?
ジョブが失敗または終了したときに通知を構成する API があることは知っています。
しかし、たとえば、テーブル内の行数をカウントするハイブ クエリを実行するとどうなるでしょうか。返された結果がゼロの場合、関係者にメールを送信したい。どうやってやるの?
ありがとう。
hadoop - HDFS データ エクスポート エラー: 1 ではなく 0 ノードにしかレプリケートできませんでした
Qubole で MySQL へのデータ エクスポートが開始されたときに Hive クエリを正常に実行した後、(ログ ファイルに) 次のエラーが表示されます。
org.apache.hadoop.ipc.RemoteException: java.io.IOException: ファイル /tmp/mapred/system/CAR/libjars/tmp_clickimpressiontracking.jar4047410322917561880 は、1 ではなく 0 ノードにしか複製できませんでした
hadoop - 複数のテーブルから合計レコード数を検索するためにハイブ クエリを最適化する方法
Hive を使用して保存され、S3 バケットが Organization_id によって分割されているイベントのテーブル A、B、C からのカウントの合計を示すレポートを生成する必要があります。
例: テーブル A – ジョン (および他の従業員) が仕事に行く毎日の記録があります テーブル B – ジョン (および他の従業員) が職場で発信または受信したすべての電話の記録があります テーブル C – 毎日の記録がありますジョン(および他の従業員)が職場で提出する経費
基本的に、先月の John (employee_id) の A、B、C のカウントの合計が必要です。3 つのテーブル A、B、または C のいずれかにレコードがある場合は、すべての日付に 1 つのレコードしかないはずです(1 つ以上のテーブルに日付のレコードがある場合は、カウントを合計します)。だから私の出力は次のとおりです。
私が思いついたクエリは次のとおりです。
2 つの質問があります。
1. 適切なクエリがありますか? 2. 「完全外部結合」を使用しているため、同じ日付に対して複数のエントリが取得されます。誰かが結果を達成するためのより良い方法を提案できますか? 別のクエリかもしれません
scala - Spark DataFrame データを個別のファイルに分割する
s3 ファイルからの次の DataFrame 入力があり、データを次の目的の出力に変換する必要があります。Scala で Spark バージョン 1.5.1 を使用していますが、Python で Spark に変更できます。どんな提案でも大歓迎です。
データフレーム入力:
望ましい出力:
以下は、私が試した既存の Spark Scala コードです。
現在の出力:
私の既存のコードの問題のいくつかは、groupBy が GroupedData オブジェクトを返し、おそらくそのデータに対して count/sum/agg 関数を実行したくないということです。データをグループ化して出力するためのより良い手法を探しています。データセットは非常に大きいです。