“distributed-cache”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2392 参照

caching - Hadoopマップリデュースジョブで大きなファイルを効率的にキャッシュする方法は?

私の仕事の流れは以下の通りです。

膨大な量のデータを処理しています。MapFileキャッシュする必要があるがあります。このファイルのサイズは現在 1 GB ですが、最終的には大きくなると思います。

MapFile の内容は次のようになります。

では、map-phaseにある入力ファイルから各レコードを処理しますTextInputFormat。行を解析 (トークンごとに分割) し、最初の 2 つのトークン (token1 と token2) を取得します。

(token1,token2) のペアがキャッシュされたファイルにない場合は、API 呼び出しを実行して情報を取得し、(可能であれば) キャッシュに保存して処理を続行します。

ここで私が見ている主な問題は

すべてのノードでキャッシュ内の大きなファイルを取得する方法。DistributedCache は、ファイルをローカルノードにコピーすることで機能します。しかし、このファイルはサイズが大きいため、ここにネットワークトラフィックが関係しており、私の日常業務では、ファイルを配布し続けたくありません。
MapFile（キャッシュ）を効率的に検索する方法、mapFile全体がメモリ内にありません。
私のキャッシュであるこのMapFileに書き込む方法。

ありがとう

2014-10-30T03:51:45.273

0 投票する

1 に答える

163 参照

hadoop - Google File System における Hadoop Distribution File system の Distributed cache と同様の機能は何ですか?

Google Compute Engineに6 ノードのHadoop クラスターをデプロイしました。

Hadoop ファイル配布システム(HFS)ではなく、 Google ファイルシステム(GFS)を使用しています。 . そこで、 HDFS の分散キャッシュ方式と同じ方法で、GFSのファイルにアクセスしたいと考えています。

この方法でファイルにアクセスする方法を教えてください。

hadoop hdfs google-compute-engine distributed-cache gfs

2014-11-25T21:03:48.147

0 投票する

0 に答える

140 参照

hazelcast - Hazelcast 分散マップ

アプリケーションには Hazelcast 分散キャッシュがあります。キャッシュは負荷が低い場合は適切に機能しますが、負荷が高くなり、ネットワークの待ち時間が長くなると、キャッシュはノード間で同期しなくなります。以前にこの動作を観察した人はいますか? ローカルマシンで 2 つのノードを使用しました。

hazelcast distributed-cache

2014-12-07T11:48:15.533

0 投票する

1 に答える

251 参照

hadoop - FileNotFoundException ですが、ファイルは存在します

分散キャッシュに追加されたファイルを読み取ろうとしているときに、Hadoop でこの例外が発生しました。奇妙なことに、ファイルは指定された場所に存在します。

を使用して仕事を始める前にファイルを追加しています

そして、マッパーの setup メソッドからファイルから読み取ろうとしています

前述のとおり、ファイルがローカルシステム上にあることは確認できますが、例外がスローされます。

1台のコンピューターで、疑似分散モードでジョブを実行しています。

何か案は？

ありがとう

hadoop distributed-caching distributed-cache

2014-12-22T08:48:32.333

0 投票する

1 に答える

190 参照

distributed-caching - Dache の SlidingExpiration Timespan とは何ですか?

SlidingExpirationDache の AddOrUpdate メソッドの Timespan とは正確には何ですか? または
を使用する方が良いですか、違いは何ですか?SlidingExpirationAbsoluteExpiration

distributed-caching distributed-cache dache

2015-01-08T07:14:47.017

0 投票する

0 に答える

132 参照

caching - Hadoop パーティショナーで分散キャッシュからオブジェクトを取得することは可能ですか?

Hadoop の分散キャッシュを使用すると、開発者は小さなファイルを MR コンテキストに追加できます。これを使用して、Map または Reduce フェーズで追加情報を取得できます。ただし、このキャッシュにアクセスする方法は見つかりませんでしたPartitioner。Partitionerキーがレデューサーに送信される方法を決定するために、カスタムで小さなファイル (以前の MR ジョブの出力) の内容が必要です。

残念ながら、これに関する有用なドキュメントは見つかりません。現在、私の唯一のアイデアは、ファイルの内容を Base64 文字列にシリアル化し、Configuration. Configurations を実装させることで、パーティショナーで使用できますConfigurable。ファイルはこのアプローチには十分小さい (約 50KB) ですが、分散キャッシュの方が適していると思います。

編集: 私は少し良いと思う別のアプローチを見つけました。パーティショナーでアクセスする必要があるファイルは HDFS にあるため、その完全修飾URIをConfiguration. 私PartitionerのsetConf方法では、パスを介して再作成new Path(new URI(conf.get("some.file.key")))し、の助けを借りてそれを読み取ることができますConfiguration。それでもハックですが...

caching hadoop distributed-cache

2015-02-09T09:49:47.137

0 投票する

1 に答える

1016 参照

hazelcast - Hazelcast-OperationTimeoutException

Hazelcast バージョン 3.3.1 を使用しています。
c3.2xlarge サーバーを使用して aws で実行されている 9 ノードのクラスターがあります。
分散エグゼキュータサービスと分散マップを使用しています。
分散エグゼキュータサービスは単一のスレッドを使用します。分散マップは、レプリケーションもニアキャッシュもなしで構成され、Kryo シリアライザーを使用してサイズ 1 ～ 2kb の約 100 万個のオブジェクトを格納します。
私のユースケースは次のようになります。

9 つのノードすべてが、分散エグゼキュータサービスで常に同期リモート操作を実行し、毎秒約 20,000 ヒット (ノードあたり約 2,000) を生成します。
呼び出しは、Hazelcast API: com.hazelcast.core.IExecutorService#executeOnKeyOwner を使用して実行されます。
各操作は、パーティションを所有するノード上の分散マップにアクセスし、格納されたオブジェクトを使用して計算を行い、オブジェクトをマップに格納します。(そのために、IMap オブジェクトの get および set API を使用します)。

時々、Hazelcast は次のようなタイムアウト例外に遭遇します:
com.hazelcast.core.OperationTimeoutException: No response for 120000 ms. 呼び出しを中止します! BasicInvocationFuture{invocation=BasicInvocation{ serviceName='hz:impl:mapService'、op=GetOperation{}、partitionId=212、replicaIndex=0、tryCount=250、tryPauseMillis=500、invokeCount=1、callTimeout=60000、target=Address[ 172.31.44.2]:5701, backupsExpected=0, backupsCompleted=0}, response=null, done=false} 応答がありません! バックアップが期待されます:0 バックアップが完了しました: 0

場合によっては、マップパーティションが移行し始め、さらに悪いことに、ノードが頻繁にクラスターから離れて再参加することがわかります。この問題を解決するには、クラスター全体を再起動するしかありません。

Hazelcast がマップ取得操作を 120 秒間ブロックする原因は何ですか?
同じサーバー上の他のサービスは問題なく動作するため、ネットワーク関連ではないと確信しています。また、サーバーはほとんどアイドル状態 (~70%) であることにも注意してください。

私の使用例に関するフィードバックは、非常に高く評価されます。

hazelcast distributed-cache

2015-02-17T20:32:38.810

0 投票する

1 に答える

926 参照

mapreduce - map -reduce で複数のファイルを分散キャッシュに読み込む

現在、分散キャッシュに 2 つのファイルを追加しようとしています。しかし、それを読み取ろうとすると、2 つのファイルがまったく異なるデータを保持しているにもかかわらず、2 番目のファイルは最初のファイルと同じデータを読み取っています。なぜこれが起こっているのですか？

mapreduce distributed-cache

2015-03-04T13:43:50.260

0 投票する

1 に答える

414 参照

apache-pig - Pig 分散キャッシュ

getShipFilesと授業getCacheFiles中はどう違いますか？EvalFunc

このメソッドで指定された任意のファイルがexec、分散キャッシュからメソッドで利用できると仮定します

apache-pig distributed-cache pig-udf

2015-03-22T07:12:41.280

問題タブ [distributed-cache]

Reference