問題タブ [distributed-cache]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop 分散キャッシュにファイルを保存しようとすると、FileNotFound 例外が発生する
ローカル ファイルを分散キャッシュに保存しようとしています。ファイルは存在しますが、File not found 例外が発生します
コードフラグメント:
例外:
何か案は?
java - Hadoop 2.x の分散キャッシュ
新しい API である Hadoop 2.x の DistributedCache に問題があります。この問題に対処している人が何人か見つかりましたが、問題の例は解決されません。
DistributedCache でデータを取得しようとしたときに NullPointerException が発生したため、このソリューションは機能しません
私の構成は次のとおりです。
運転者
設定
ここでバッファリングされたリーダーの作成を開始すると、NullPointerException がスローされます。これはcontext.getCacheFiles();が原因で発生します。常に NULL を返します。この問題を解決する方法と、キャッシュ ファイルが保存されている場所 (HDFS、またはローカル ファイル システム)
hadoop - Hadoop 分散キャッシュを使用してファイルをメモリに入れる方法は?
私の知る限り、分散キャッシュはファイルをすべてのノードにコピーしてから、ローカル ファイル システムからファイルをマップまたはリデュースします。
私の質問は次のとおりです。Hadoop 分散キャッシュを使用してファイルをメモリに配置し、すべてのマップまたはリデュースがメモリから直接ファイルを読み取れるようにする方法はありますか?
私のMapReduceプログラムは、約1Mのpng画像をすべてのノードに配布し、すべてのマップタスクが分散キャッシュから画像を読み取り、マップの入力から別の画像で画像処理を行います。
hadoop - Hadoop で 2 つの異なるファイルを結合する
Hadoop で非常に具体的な問題があります。
userlistと *raw_data*の 2 つのファイルがあります。現在、raw_data はかなり大きなファイルであり、userlist は他のファイルよりも比較的小さいです。
最初にマッパーの数を特定する必要があり、ユーザーリストをマッパーの数と同じ数に分割する必要があります。後で分散キャッシュにロードする必要があり、ユーザーリストと比較して分析を実行し、レデューサーに書き込む必要があります。
提案してください。
ありがとうございました。
hadoop - 分散キャッシュを介して Pig のファイルにアクセスする
これに関して、Stackoverflow の多くのページを調べました。しかし、それでも私は混乱しています。重複した質問や類似の質問でも構いませんので回答お願いします
Pig であるファイルを別のファイルと比較したいのですが、ファイルの 1 つを分散キャッシュに入れて、すべてのマッパーがローカルに持つようにします。Pig での実装方法。
hadoop - Hadoop の分散キャッシュ内のファイルを更新する
分散キャッシュ内のファイルを更新するにはどうすればよいですか?.
たとえば、分散キャッシュにプロパティ ファイルがあり、プロパティ ファイルにいくつかの値を追加しました。
オプション:
- 古いファイルに新しい値を追加して、ジョブを再開します。
- 古いファイルを新しいファイルに置き換えて、ジョブを再開します。
- 新しいファイルを新しい場所に配置し、その場所をポイントします。
上記のすべての選択肢はどれが正しいですか?なぜですか?
ehcache - Terracota のスケーリング - フリーでオープンソース?
Terracota ehcache は、さまざまなノード間でスケーリングするオープン ソースですか、それとも商用製品ですか? どうやら、以前は商用ライセンスは必要ありませんでしたが、現在は必要です。
http://ehcache.org/から- 「一貫性のある分散キャッシュとインメモリ パフォーマンスを必要とするアプリケーションの場合は、延長試用版とフル バージョンの両方で利用できる Terracotta BigMemory Max を使用してください。(Terracotta は、open- Terracotta Server Array のソース バージョン (Terracotta としても知られています。)"
誰かがそれに光を当てることができますか?Web 上で紛らわしい情報を見つけます。