問題タブ [mapper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HADOOP - マッパー内でノード名を取得する
私はマッパーを書いていますが、マッパーが実行されているノード名を取得できるかどうかを知りたいです。
java - reduce フェーズが動作している間に map フェーズを開始する方法
私はこのシナリオを持っています。ジョブAとジョブB。これがまだ機能している間に、JobA reduce フェーズによって提供されたデータを使用して JobB マッピング フェーズを開始する機会はありますか?
ありがとう!
hadoop - 各ステップ間にマッパーを使用しない Hadoop ストリーミングと複数のレデューサー ステップ
毎回マッパーを使用せずにデータを複数回ソートする方法をトラブルシューティングしています。
Id like to setup: マッパー 1 --> レデューサー 1 ---> レデューサー 2 ---> レデューサー 3
レデューサー 1 の出力 (キー、データ) を作成し、それをレデューサー 2 に直接送りたい...これは可能ですか?
トラブルシューティングでジョブをチェーンできることを知りましたが、これには各ステップにマッパーが必要ですか?
マッパーなしで実行しようとすると、エラーで終了します。レデューサー1から必要に応じて出力できる場合、各ステップでマッパーを実行するのは時間/リソースの無駄になるようです。
考え?
hadoop - Hadoop の Kmeans
- Kmeans の各反復の後、Hadoop は一連のクラスターである出力を HDFS に保存し、次の反復でそれらをメモリにフェッチしますか?
- マッパーは観測を特定のクラスターに入れています。つまり、すべてのノードがすべてのデータを認識している必要があり、すべてのノードが特定のノードの観測セットを提供するように、Hadoop はデータではなくコンピューティングのみを分散します。
ありがとうございました
php - PHPでマジックセッターとゲッターの後にパラメーターをオーバーライドする方法
現在、ORM から DB への BaseObject があります。プライベート $data と魔法のセッターとゲッターに依存して、列の束を持つオブジェクトをプライベート オブジェクト メンバーとして (動的に) 作成します。子クラス内で、個々のオブジェクト メンバーを設定するように動作を変更したい場合は、親セッターをオーバーライドしてキーを探す必要があります。私の質問は、__setter を経由するのではなく、単一のオブジェクト メンバーをオーバーライドできる、これを行うためのより良い方法があるかどうかです。
データベースにマップし、一連のプライベート パラメータを動的に作成するベース オブジェクト マッパー
そして子クラス。今すぐパラメータ設定をオーバーライドするには、これを行う必要があります
私の質問は、これを行うためのエレガントな方法はありますか、おそらく子クラスでこのようなものですか?
目標はすることです
scala - まだ保存されていないオブジェクトをMappedManyToManyに追加する
私が取り組んでいるプロジェクトは、いくつかの望ましくないMapperの動作に遭遇しました。オブジェクトがデータベースにすでに保存されていない限り、オブジェクトを多対多の関連付けに追加することはできないようです(具体的には、保存されていないオブジェクトを多対多の関連付けから取得することはできません)。
例として、M:N関係にある従業員と部門があります。経理とセキュリティの2つの部門をインスタンス化します。経理は従業員を救われる前に取得し、セキュリティは従業員を救われた後に取得します。
出力
!!!
経理の社員全員がフレッドになりました!問題は同様に拡大します。まだ保存されていないエンティティを10個追加するとaccounting.employees
、アクセス時にFredへの参照が10個生成されます。
これはバグか、マッパーの有用性に対する深刻な制限のいずれかであるように思われます。次のいずれも含まないこの動作の回避策はありますか?
- モデルの外部にあるデータ構造を使用して、保存する準備ができるまでエンティティと関連付けを追跡する、または
- 作成時にエンティティを保存し、ユーザーが保存について「気が変わった」場合は削除を発行します
python - ApplicationError:7GoogleCloudStorageに書き込むmapreduceワーカーの処理が完了すると
大規模なAppenginemapreduceタスクを完了するだけで、私のシャードの多くがフィニッシュラインからすぐにスタックします。設定は次のとおりです。
これらのうち3つを並行して実行しており、それぞれに16個のシャードがあります。1つのマッパーは問題なく完了し、他の2つのマッパーは14と9のシャードで成功しました。
残りの破片はすべて完全に妨害され、戻ってきUnknownError: ApplicationError: 7
ます。(この投稿の最後にある完全なスタックトレース。)
マッパーがGoogleCloudStorageに書き込もうとしていることに注意してください。この書き込みを実行しているビットでエラーが発生します。
しばらく探し回った後、google.appengine.runtime.apiproxy(問題のプロキシのようです)で、エラー7がであることがわかりましOTHER_ERROR
た。
私はこれらの最後のタスクを(タスクキューから)約3時間再試行しましたが、これらのエラーが始まってから1つも成功していません。何が起こっても、それは完全に立ち往生しています。また、これが実行されていたすべてのインスタンスを停止しようとしました。これは、ローカル状態がおかしい場合に備えてですが、変更はありません...
完全なスタックトレースは次のとおりです。
hadoop - Hadoop ストリーミング: マップごとに単一ファイルまたは複数ファイル。分割しないでください
C++ ライブラリで処理する必要がある zip ファイルが多数あります。そのため、C++ を使用して Hadoop ストリーミング プログラムを作成しています。プログラムは zip ファイルを読み取り、解凍し、抽出されたデータを処理します。私の問題は次のとおりです。
私のマッパーは、正確に 1 つのファイルのコンテンツを取得できません。通常、2.4 ファイルまたは 3.2 ファイルのようなものを取得します。Hadoop はいくつかのファイルをマッパーに送信しますが、ファイルの少なくとも 1 つが不完全です。zip ファイルをこのように処理できないことはご存知でしょう。マップごとに 1 つのファイルを取得できますか? データの局所性を利用したいので、ファイル リストを入力として使用してプログラムから読み取りたくありません。
Hadoop が zip ファイルを分割しない場合、マップごとに複数の zip ファイルのコンテンツを受け入れることができます。2.3 ファイルのようなものではなく、正確に 1、2、3 ファイルを意味します。私のプログラムは、解凍されたデータを処理するために約800MBのデータファイルをロードする必要があるため、実際にはさらに良くなります。これはできますか?
hadoop - Hadoop で読み込まれた BZip2 ファイル
複数のマッパーを使用して、Hadoop で 1 つの bzip2 ファイルのさまざまな部分を並行して読み取って、パフォーマンスを向上させることができると聞きました。しかし、検索しても関連するサンプルが見つかりません。関連するコード スニペットを教えていただければ幸いです。ありがとう。
ところで:gzipには同じ機能があります(複数のマッパーが1つのgzipファイルの異なる部分を並行して処理します)。
database - データベースへの複数の呼び出しによる依存性注入
コードにOOPと依存性注入をより適切に実装しようとしていますが、以下の問題が発生します。
私は、雇用主と会社が関与しているクライアントにサービスを提供します(対応するモデル、マッパー、データベーステーブルを使用)。
Serviceオブジェクトを取得するには、最初にデータベースからclientIdを返すServiceオブジェクトをインスタンス化します。clientIdを使用して、データベースに再度アクセスすることを含むClientオブジェクトをインスタンス化します(そしてそれをサービスにアタッチします)。雇用主と会社についても同じです。
結合を使用してデータベースからサービス、クライアント、雇用者、会社を一度に取得することもできますが、それではマッパーがより複雑になります。たとえば、クライアント、雇用主、企業はすべて住所を持っているので、これらの列にエイリアスを付けて、それぞれのモデルにマッピングする必要があります。これは、各テーブルからすべての列を個別に取得し、それらを各モデルに個別にマップして(たとえば、下線付きの列をZFキャメルケースに変換するロジックを使用して)、クライアント、雇用者、および会社のマッパーを再利用するよりもクリーンではありません。
ベストプラクティスの解決策はありますか、それとも個人の好みや状況(パフォーマンスと保守性)次第ですか?