問題タブ [apache-crunch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - "の起源をたどる方法()V" Avro で失敗?
apache crunch を使用していますが、Avro から不可解なエラー メッセージが表示されます。
「init()V」エラーの意味は何ですか? 具体的には、クランチでもこの問題を修正したいと思います。これは、ジョブに Maprece パイプライン オプションを使用する場合にのみ発生しますが、MemPipeline を使用すると発生することはありません。
java - Apache Crunch で、PCollection または PTable に要素が含まれているかどうかを調べる方法は? もしそうなら、いくつですか?
ブレーク ポイントを設定して、ウォッチ ウィンドウで次の操作を実行しようとしました。.materialize() を使用して、Java オブジェクトを確認できるかどうかを確認します。
.getSize() は 0 より大きい数値を示しますが、それが PTable に要素があることを示しているかどうかは疑問です。.materialize() には、要素の存在を示すものは何も表示されませんでした。
前もって感謝します。
hadoop - Hive パーティションを Apache Crunch パイプラインに読み込む方法は?
hdfs のテキスト ファイルを apache crunch パイプラインに読み込むことができます。しかし今、ハイブ パーティションを読み取る必要があります。問題は、私たちの設計によると、ファイルに直接アクセスすることは想定されていないことです。したがって、HCatalog などを使用してパーティションにアクセスできる方法が必要です。
java - HBase Standalone への Apache Crunch を使用した WordCount
現在、Apache Crunch を評価しています。簡単なWordCount MapReduce ジョブの例に従いました。その後、結果をスタンドアロンの HBase に保存しようとしました。ここで説明されているように、HBase が実行されています (jps および HBase シェルでチェック): http://hbase.apache.org/book/quickstart.html
ここで、HBase への書き込みの例を採用します。
「例外:java.lang.illegalArgumentException: HBaseTarget は Put と Delete のみをサポートしています」という例外が発生します。
何が悪かったのか手がかりはありますか?
hive - スキーマのない avro ファイル用のハイブ テーブルを作成する
複数の avro ファイルがあり、各ファイルには STRING が含まれています。各 avro ファイルは 1 つの行です。単一のディレクトリにあるすべての avro ファイルを消費するハイブ テーブルを作成するにはどうすればよいですか。各ファイルには大きな番号が含まれているため、関連付けることができる json の種類のスキーマもありません。schema less と言うのは間違っているかもしれません。しかし、ハイブがこのデータを理解する方法が見つかりません。これは非常に単純かもしれませんが、成功せずにさまざまな方法を試したので迷っています。json スキーマを avro uri として指すテーブルを作成しましたが、ここではそうではありません。より多くのコンテキストファイルについては、crunch api を使用して書き込まれました
テーブルを作成するがデータを正しく読み取らない次のクエリを試しました
java - Hadoop InputFormat はキーを入力ファイル パスに設定します
私の Hadoop ジョブは、各レコードの派生元である入力パスを認識する必要があります。
たとえば、S3 オブジェクトのコレクションに対してジョブを実行しているとします。
などのキーと値のペアを減らしたい
org.apache.hadoop.mapreduce.InputFormat
これを達成する拡張機能はありますか?または、カスタム入力形式を使用するよりも良い方法はありますか?
MapContext
マッパーでは、この情報は( Hadoop プログラムのマッパーで入力ファイル名を取得する方法は? )からアクセスできることは知っていますが、Apache Crunch を使用していて、ステップのいずれかが Maps になるか Reduces になるかを制御できません。ただし、InputFormat を確実に制御できるので、これを行う場所のように思えました。