問題タブ [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jsp - JSP/サーブレットにカスケードドロップダウンリストを設定する
dd1
、、dd2
およびという名前の3つのドロップダウンリストコントロールがあるとしdd3
ます。各ドロップダウンリストの値はデータベースから取得されます。dd3
の値はの値に依存し、dd2
のdd2
値はの値に依存しますdd1
。この問題に対してサーブレットを呼び出す方法を教えてもらえますか?
java - HBaseテーブルごとのレデューサー
基本的に、データを適切なレデューサーにルーティングする必要があります。各ReducerはTableReducerになります。
私は次のファイルを持っています
venodor1、user1、xxxx = n venodor1、user1、xxxx = n venodor2、user2、xxxx = n venodor2、user2、xxxx = n
次のhbaseテーブルに挿入する必要があります
テーブルvendor1:[user1] => {data:xxxx = n} [user2] => {data:xxxx = n}
テーブルvendor2:[user1] => {data:xxxx = n} [user2] => {data:xxxx = n}
形式は[ROW_ID]=>{[FAMILY]:[COLUMN]=[VALUE]}です。
- 各ベンダーには異なるhbaseテーブルがあります
- 行は、行の値に基づいて別のhbaseテーブルに移動する必要があります。
それを行う方法はありますか?カスケードで?これを回避する別の作業はありますか?
ありがとう、フェデリコ
hadoop - Hadoop Map Reduce のカスケーディングが役立つと思う人はいますか?
私はカスケーディングを試してきましたが、ジョブを作成するための従来の map reduce アプローチに勝る利点は見当たりません。
Map Reduce ジョブは私に自由を与えてくれますが、Cascading は多くの障害をもたらしているようです。
シンプルなものをシンプルに、しかし複雑なものにするのに良い仕事をするかもしれません..私はそれらが非常に難しいと思います.
私が欠けているものはありますか?従来のアプローチよりもカスケードの明らかな利点はありますか?
どのシナリオで、従来のアプローチよりもカスケードを選択する必要がありますか? 使って幸せな人いますか?
mapreduce - hbase-0.89.20100924+28 の HBase カスケード モジュールはどこにありますか?
map reduce と HBase を使用するプロジェクトに取り組んでいます。hbase-0.89.20100924+28 がバンドルされている Cloudera の CDH3 ディストリビューションを使用しています。複数のマップ削減ジョブを必要とする処理があるため、カスケードを使用したいと思いますが、github でカスケードするための HBase アダプターのさまざまなフォークを調べたところ、HBase のバージョンに対応するものが見つからないようです。誰かが私を正しい方向に向けることができますか?
mapreduce - Hive QLには、Hadoopで直接独自のMapReduceジョブを作成するのと同じ表現力がありますか?
言い換えれば、
マップリデュースジョブを直接定義することで解決できるが、Hive QLクエリを形成できない問題はありますか?
はいの場合、Hive QLはその表現力に制限があり、可能なすべてのマップリデュースジョブを表現できないことを意味します。
実際には、これは、HiveQLが独自のMapReduceジョブを定義するための完全な代替ではないことを意味します。
hadoop - Hadoop の「スタイル」 -- 数千の (k, v) ペアに対するチャンキング
私は、NASA の MODIS グリッドに対応するデータのマトリックスを含む多数の大きなファイルを扱っています。グリッドは、地球の表面を 21,600 x 43,200 ピクセル配列に分割します。この特定のデータセットは、ピクセルごとに 1 つの整数値を提供します。
1 か月に 1 ファイル、約 200 個のファイルがあり、ピクセルごとに時系列を作成する必要があります。
私の質問は、これらのファイルの 1 つを取るマップ タスクの場合です。グリッドをたとえば 24,000 ピクセルのチャンクに分割し、それらを (場所と期間をキーとして) 値として出力するか、単純にすべての単一ピクセルのキー、値のペア、ピクセルを正規の単語カウントの例の単語のように扱いますか?
チャンクは正常に機能します。プログラムに任意の「チャンクサイズ」変数を導入するだけです。これで IO の時間がかなり節約できると思いますが、これは単なる感覚であり、実際の情報に基づいた意見をお待ちしています!
java - カスケード - 2 つの集計をマージする
カスケードで解決しようとしている次の問題があります: o、a、f、i、c という構造のレコードの csv ファイルがあります。
o、a、f でレコードを集計し、グループごとに i と c を合計する必要があります。
例えば:
100,200,300,5,1
100,200,300,6,2
101,201,301,20,5
101,201,301,21,6
次の結果が得られます。
100,200,300,11,3
101,201,301,41,11
私が持っている 2 つの Every インスタンスをマージする方法がわかりませんでした (両方のフィールドを同時に集計できますか?)。
何か考えはありますか?
よし
}
hadoop - Oozie を使用したカスケーディングの実行
Oozie を使用してカスケーディング ジョブを実行しようとしています。java.lang.ClassNotFoundException が発生しています: cascading.tap.hadoop.MultiInputSplit
ワークフロー ライブラリにカスケード jar を含めていますが、カスケードが m/r ジョブを起動するときに含まれていません。
Oozie と一緒に Cascading を使用している人はいますか?
scala - Java / Scala for Hadoopでデータ分析パイプラインを構築するための最も成熟したライブラリは何ですか?
私は最近多くのオプションを見つけました、そしてそれらの比較において主に成熟度と安定性によって興味深いものでした。
- クランチ-https ://github.com/cloudera/crunch
- Scrunch- https://github.com/cloudera/crunch/tree/master/scrunch
- カスケード-http ://www.cascading.org/
- スカルディング https://github.com/twitter/scalding
- FlumeJava
- Scoobi- https://github.com/NICTA/scoobi/
debugging - Hadoop with Cascading を取得して、デバッグ ログ出力を表示するにはどうすればよいですか?
Hadoop とCascading 1.2.6 で、デバッグフィルターを使用して得られるはずの出力を表示するのに問題があります。カスケード ガイドでは、これが現在のタプルを表示する方法であると述べています。これを使用して、デバッグ出力を確認しようとしています:
私は Hadoop と Cascading にかなり慣れていませんが、適切な場所を探していないか、欠落している単純な log4j 設定がある可能性があります (Cloudera で取得したデフォルトに変更を加えていませんhadoop-0.20.2-cdh3u3
。
これは、私が使用している WordCount サンプル クラス (カスケーディング ユーザー ガイドからコピー) であり、Debug ステートメントが追加されています。
それは正常に動作します。単語を示すデバッグステートメントがどこにも見つかりません。HDFS ファイルシステムとjobtracker web uihadoop dfs -ls
の両方を調べました。jobtracker のマッパーのログ出力には、STDOUT の出力がありません。
最後に、期待する Debug ステートメントが含まれていない DOT ファイルも書き込んでいます (ただし、それらは取り除かれている可能性があります)。
どこかに行方不明のログファイルがありますか、それとも設定する必要がある構成設定ですか?