問題タブ [mapper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Hadoop ストリーミング マッパーのバイト オフセットが生成されない
ストリーミング Hadoop ジョブを実行していますが、期待どおりにバイト オフセットがマッパーの出力 (キー) として生成されません。コマンド:
私の理解では、 TextInputFormat がデフォルトであるため、 -inputformat オプションなしで上記のコマンドも試しました。-D も削除しようとしましたが、ストリーミング API を使用するときにバイト オフセットをキーとして取得するために必要だと言われました。
価値があるのは、学生のプロジェクトで Hadoop を試しているところです。現時点では、マッパーは HDFS 内のファイルの非常に単純な python grep であり、各行を提供された正規表現と照合します。
ただし、現時点では、(リデューサーに) 出力されるのは一致する行だけです。タブまたは空白で区切られたキーと値のペアを期待しています。ここで、key=byte_offset と value=regex_line_match です。
なぜこれが起こっているのか、誰かが私に教えたり提案したりできますか?
また、次の 2 つの (関連する) 質問への回答にも関心があります。
- マッパーが、データが属するファイルに対して、処理中のデータの各行のバイトオフセットを手動で決定することは可能ですか?
- マッパーが、処理中のデータが属するファイル内の合計バイト数を特定することは可能ですか?
これらの質問のいずれかに「はい」の場合、どのように? (python、または一般的なストリーミング)。
編集:
使用する-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat
と、バイトオフセットがマッパー出力のキーとして生成されます。しかし、ジョブが完了するまでに非常に長い時間がかかります (そして、私の入力ファイルには約 50 行のテキストしかありません!)。
php - PHPで提供配列の数で指定子の数を変更する方法
私のコードは以下のとおりです
コントローラーコード:
マッパーコード:
関数に 3 つの指定子を追加しまし($query->"location_wise")
た。statController->selectLocationWise()
それを使用するとき、手動で追加するのではなく、どのように$select->getValues()[2]
値を追加しますかstatMapper->select()
。
json - JSON動的オブジェクトをC#エンティティに変換する方法
mvc ajax json post applicaiton を作成すると、json 動的オブジェクトをエンティティに変換する際に問題が発生します。
私のアプリでは、ムービーはビジネス エンティティであり、json オブジェクトにはムービー エンティティよりも行ステータス プロパティがあります。json データが mvc サーバー側にポストされると、動的オブジェクトに変換できます。この段階ではすべてが OK です。ただし、各行ステータスにいくつかのロジックを処理した後、動的オブジェクトをムービー ビジネス エンティティに変換し、データベース トランザクション ロジックを開始する必要があります。しかし、オブジェクトをキャストするために別の方法を試しても問題があります。
誰かが同じキャスト方法を使用しましたか? あなたのアドバイスや返信に感謝します。
java - Java Hadoop Mapper が複数の値を送信する方法
私のマッパーは、次のタプルを送信する必要があります。
そして、reduce フェーズで必要になるため、 custID をキーとして、値として prodID と rate を一緒にレデューサーに送信したいと考えています。これを行う最良の方法はどれですか?
java - XML エンティティの Java オブジェクトへのマッピング
これは、XML から Java オブジェクトへの変換に関して重複する多くの質問の 1 つです。しかし、私はこのスレッドを開始しました.
私は xsd [事実、私はそれを設計しています] と xml を持っています。マッピングに従って xml データを Java Bean に自動マッピングしたい
今私のJavaクラスは
XML から Java Bean にデータを自動マップできる単純なツール/フレームワークはありますか [属性/要素のマッピングをサポートする必要があります]。チュートリアルは良いでしょう。
ところで、私はSpringフレームワークを使用しています.spring-oxmの利点があれば、歓迎します.
java - Hadoop の WordCount プログラムで例外を取得する
Hadoop で最初のプログラムを実行しようとすると、この例外に直面します。(バージョン 0.20.2 で Hadoop の新しい API を使用しています)。Web で検索したところ、構成ロジックで MapperClass と ReducerClass を設定しなかったときに、ほとんどの人がこの問題に直面したようです。しかし、チェックしたところ、コードは問題ないようです。誰かが私を助けてくれれば本当に感謝しています。
java.io.IOException: マップからのキーの型の不一致: 予想される org.apache.hadoop.io.Text、org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask で org.apache.hadoop.io.LongWritable を受け取りました.java:871)
java - ファイルの内容を読み取らない Hadoop プログラム
基本的な質問かもしれませんが、map reduce プログラムでは、内容ではなく、inputfolder に存在するすべてのファイルの名前を読みたいと思います。それらのファイルの名前をマッパー クラスに送信したいと思います。設定 conf=new Configuration();
これは私のメインクラスであり、理解できないようです。
hadoop - hdfsにアップロードせずにローカルファイルシステムにアクセスする
とにかく、HDFS の外側の Hadoop で入力パスを指定する方法はありますか?単一ノード クラスターを実行していて、HDFS の外側のファイルにアクセスしたいので、これを行う方法はありますか?
hadoop - 異なるマッパーの HBase MapReduce スプリット スキャン
いくつかのマップ タスクに対して適切な方法で HBase 行を分散するのに苦労しています。私の目的は、行キーを使用してスキャンを分割し、一連の行をそれぞれマップ ジョブに配布することです。
今のところ、マッパーが一度に 1 行ずつ取得するスキャンを定義することしかできません。しかし、それは私が望むものではありません-マップ入力セットが必要です。
私のHBaseテーブルを分割する可能性はありますか?n セットの行にスキャンし、n マッパーに入力しますか?
n個のファイルを書き込むMapReduceジョブと、これらのセットを取得するためのテキスト入力としてそれらを再度読み取るための別のMapReduceジョブを開始するソリューションを探していません。
前もって感謝します!