問題タブ [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - カスケードHBaseタップ
HBaseに接続する必要のあるScaldingジョブを作成しようとしていますが、HBaseタップの使用に問題があります。このサンプルプロジェクトに従って、 Twitter Mapleが提供するタップを使用してみましたが、使用しているHadoop / HBaseバージョンと、Twitterでクライアントとして使用されているバージョンとの間に互換性がないようです。
私のクラスターは、HBase0.92およびHadoop2.0.0-cdh4.1.3でClouderaCDH4を実行しています。HBaseに接続するScaldingジョブを起動するたびに、例外が発生します
Twitter Mapleで使用されているHBaseクライアントはNetUtils
、クラスターにデプロイされているバージョンのHadoopには存在しないメソッドを想定しているようです。
不一致が正確に何であるかを追跡するにはどうすればよいですか?HBaseクライアントはどのバージョンを期待しますか?これらの問題を軽減する一般的な方法はありますか?
多くの場合、クライアントライブラリはハードコードされたバージョンのHadoop依存関係でコンパイルされており、それらを実際にデプロイされたバージョンと一致させるのは難しいようです。
hadoop - cascading.jrubyをインストールして実行するためのチュートリアルはどこにありますか?
Hadoopをインストールしてテストしましたが、n00bの手順が見つかりません。
cascadingとcascading.jrubyを設定する方法。カスケードジャーを配置する場所と、ルビーアセンブリを正しく構築するためにジェイを構成する方法は?
これを自動的に構築するためにjenkinsを使用している人はいますか?
編集:詳細https://github.com/etsy/cascading.jrubyからサンプルの単語カウントジョブを作成しようとしています
インストールしました
- hadoopを実行し、テストを正常に実行します。
- インストールされたjruby
- gem install cascading.jruby
- 翡翠-https ://github.com/etsy/jading
インストールされたアリ
単語数サンプルwc.rbを作成しました
jadeを実行して、wc.rbをjarにコンパイルします
翡翠wc.rb
次のコンパイルエラーが発生します
Buildfile:build.xmlは存在しません!ビルドに失敗しましたRuntimeError:/ usr / bin / hjade:89でAntの取得に失敗しました(root)
翡翠のコードを見るのは理にかなっていますが、これは使用例ではカバーされていませんか?ここで何が欠けていますか?
cascading - カスケード(バッファ)実装
カスケード Hadoop でバッファを作成する必要があります。
フィールドがあるとします:
member_id,amountpaid,diadnosis_id,diagnosis_description,superGrouper_id,superGrouper_descriptiion,grouperId,grouperDescription
する必要がある
- からフィールドをグループ化し
member_id
、superGrouper_id
- すべてのパイプを使用してこれらの情報をバッファに送信します
- バッファ出力は次のよう
member_id
にsuperGrouper
なりgrouperId
ますdiagnosis_id
。
バッファの作成を手伝ってください。前もって感謝します
hadoop - カスケード ドット ダイアグラムの解釈
誰かがこれらの図の読み方を説明できますか? 頭から尾への流れは理解していますが、楕円 (パイプ/タップ) 間のフィールド (ブラケット) 遷移を読み取る方法について特に疑問に思っています。
例として、画像のすべてのパイプに続くフィールドを使用すると、これらを解釈できる方法は最初のフィールド セットです。つまり、[{2}:'token', 'count'] が次のパイプに入ります。 /タップしますが、2 番目のフィールド セット [{1}: 'token'] の意味は何ですか?
これは、上記の前のパイプに入ったフィールド セットですか? 2 番目のブラケットにプログラム上の重要性はありますか。つまり、特定のカスケード コードを使用してそのパイプ内でアクセスできますか? (2番目に設定されたフィールドが最初よりも大きい場合)
(出典: cascading.org )
hadoop - Scaldingで一度に複数の列を平均化するにはどうすればよいですか?
Scaldingを使用したいくつかの計算の最後のステップとして、パイプ内の列のいくつかの平均を計算したいと思います。しかし、次のコードは機能しません
sum, max, average
いくつかのパスを実行せずにそのような関数を計算する方法はありますか?私はパフォーマンスについて心配していますが、おそらくScaldingはそれをプログラムで検出するのに十分賢いです。
hadoop - カスケードでレデューサーを強制するにはどうすればよいですか?
マッパーではなくレデューサーでのみ可能な利点の一部を得る。
java - カスケード フレームワークを使用して Hadoop プログラムを実行しているときに、cascading.tap.hadoop.io.MultiInputSplit クラスを取得すると例外が見つかりませんでした
Hadoop マシンに接続し、一連の検証を実行して別のディレクトリに書き込むコードを次に示します。
}
私の仕事は Hadoop マシンに送信されています。これはジョブトラッカーで確認できます。しかし、ジョブが失敗し、以下の例外が発生しています。
cascading.tap.hadoop.io.MultiInputSplit が org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:348) で見つかりません org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:389) でorg.apache.hadoop.mapred.MapTask.run(MapTask.java:333) at org.apache.hadoop.mapred.Child$4.run(Child.java:268) at java.security.AccessController.doPrivileged(Native Method) javax.security.auth.Subject.doAs(Subject.java:415) org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408) org.apache.hadoop.mapred.Child.main(Child) .java:262) 原因: java.lang.ClassNotFoundException: クラス cascading.tap.hadoop.io.MultiInputSplit が org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493) で見つかりません。 hadoop.mapred.MapTask.getSplitDetails(MapTask.java:346) ...さらに7
java.lang.ClassNotFoundException: クラス cascading.tap.hadoop.io.MultiInputSplit が org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1493) で見つかりません
注意: 1. Windows マシンからこれを実行しており、hadoop は別のボックスにセットアップされています。2. CDH 4 である Hadoop 用の Cloudera ディストリビューションを使用しています。
hadoop - Cascalog first-n - 述語を結合できません
私は、 cascalog projectのクローンの lein repl で次の例に取り組んでいます。私は実行しました:
しかし、これを試してみると:
私は得る
これは、クエリの作成と実行のようです。このクエリを実行するクエリを作成することはできますか?