問題タブ [disco]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sharepoint - SharePoint:ディスコの作成に関する問題
http://msdn.microsoft.com/en-us/library/ms464040.aspxの指示に従って、disco.exeを実行すると、次のエラーが発生します。
HTMLドキュメントには、Webサービス検出情報は含まれていません。
助言がありますか?
python - Confusion about file accesses in disco
I have a simple 2 node cluster (master on one, workers on both). I tried using:
To distribute the files (which worked ok).
I expected this to mean that the processes would spawn and only operate on local data, but it seems that they are trying to access data on the other machine, at times.
Instead, I completely copied the data directory. Everything worked fine, until the reduce portion. I received the error:
It seems like the item is expected to be accessed directly via http. But I don't think this is happening correctly. Are files supposed to be passed back and forth by http? Must I have a distributed FS for multi-node MapReduce?
python - Disco/MapReduce: 前の反復の結果を新しい反復への入力として使用する
現在、Disco に PageRank を実装しています。反復アルゴリズムとして、1 つの反復の結果が次の反復への入力として使用されます。
すべてのリンクを表す大きなファイルがあり、各行はページを表し、行の値はリンク先のページを表します。
Disco の場合、このファイルを N 個のチャンクに分割し、MapReduce を 1 ラウンド実行します。その結果、(ページ、ランク) タプルのセットを取得します。
このランクを次の反復にフィードしたいと思います。ただし、現在、私のマッパーは、グラフ ファイルとページランクの 2 つの入力を必要としています。
- 各行がページを表し、ランクであり、リンクを表すように、グラフ ファイルとページ ランクをまとめて "zip" したいと思います。
- このグラフ ファイルは N 個のチャンクに分割されているため、ページランク ベクトルを N 個の並列チャンクに分割し、ページランク ベクトルの領域をグラフ チャンクに圧縮する必要があります。
これはすべて必要以上に複雑に思えます。(典型的な mapreduce アルゴリズムを使用した) 非常に単純な操作として、アプローチを本当に単純化できる Disco に関する何かが欠けているようです。
何かご意見は?
python - Disco/MapReduce: 分割データで chain_reader を使用する
特定のキーのデータが集約されていることを確認する必要があるため、私のアルゴリズムでは現在 nr_reduces 1 を使用しています。
入力を次の反復に渡すには、「chain_reader」を使用する必要があります。ただし、マッパーからの結果は単一の結果リストであり、これは次のマップの反復が単一のマッパーとして行われることを意味しているようです! 結果を分割して複数のマッパーをトリガーする方法はありますか?
apache-flex - WCF が Flex コードによって消費されない
Flashbuilder で正常に消費されるhttps://mysite/myservice.asmxがあります。それをhttps://mysite/myservice.svcに移植してプロキシ オブジェクトを生成すると、フラッシュ プロキシ オブジェクトは操作の呼び出しに失敗します。Web サービスの呼び出し中に、操作コントラクトはhttps://mysite/myservice.asmx?op=myOpによって取得されると思いますが、WCF ではhttps://mysite/myservice.svc?op=myOpがディスコ ファイルの参照を提供します。何かされたことはありますか?Flex から WCF を呼び出した人はいますか?
visual-studio-2010 - WSDL と disco ファイルの生成
wsdl と disco ファイルを自動的に (たとえば、bat ファイルを介して) 生成したい。
これらのファイルは、サービス参照が (テスト) プロジェクトに追加された場合に生成されます。
wsdl.exe と disco.exe がありません。
ベストプラクティスを教えてください。
python - Discodex に保存されたデータに対して Disco の map-reduce ジョブを実行する
ランダム アクセスを提供する必要がある大量の静的データがあります。私はそれを消化するために Disco を使用しているので、Disco Distributed File System の上に非常に見栄えのする Discodex (キー、値) ストアを使用しています。ただし、Disco のドキュメントはかなりまばらなので、Discodex インデックスを Disco ジョブへの入力として使用する方法がわかりません。
これは可能ですか?もしそうなら、どうすればいいですか?
あるいは、私はこれについて間違って考えていますか? そのデータをテキスト ファイルとして DDFS に保存したほうがよいのでしょうか?
python - Disco の「Could not parse worker event:」エラーはどういう意味ですか?
ライブラリを使用して TCP ソケットを介して渡された後に逆シリアル化される map および reduce 関数を使用して、Disco ジョブを実行しようとしていmarshal
ます。具体的には、私はそれらを解凍しています
同じシステムでプレーンな Disco ジョブ (ローカルで定義された関数を使用) を既にテストしましたが、正常に動作します。ただし、新しい関数を使用して Disco ジョブを実行すると、ジョブが失敗し続け、エラー メッセージが表示され続けます。localhost WARNING: [map:0] Could not parse worker event: invalid_length
ドキュメントを検索しましたが、「ワーカー イベント」またはinvalid_length
. ソース コードで grep を実行した後、「ワーカー イベントを解析できませんでした:」というフレーズのインスタンスが 1 つ見つかりました。具体的にはファイル内にありますmaster/src/disco_worker.erl
。私は Erlang に詳しくないので、これがどのように機能するのかわかりません。
この問題の原因は何ですか? それを回避するために何か他のことをする必要がありますか?
編集:さらにデバッグした後、このエラーはテストケース関数内での string.split() メソッドの使用に関連していることに気付きました。これを使用すると (入力の一部ではない文字列であっても)、このエラーが発生します。メソッドがオブジェクトに存在することを確認しましたが、呼び出すと問題が発生するようです。何かご意見は?
EDIT 2: さらに、 re.split 関数を使用すると、同じ効果が得られます。
EDIT 3:マップ関数の入力文字列で文字列関数を呼び出すと、この同じエラーが発生するようです。
python - Map-Reduce用のCelery、またはPythonの他の代替手段?
map-and-reduceモデルで実行するのに非常に適した高価なジョブがあります(簡単に言うと、時間のかかるアルゴリズムを使用して以前に計算された数百のランキングを集約することです)。
私は(単なるマルチプロセッシングではなく)クラスター上でジョブを並列化することを望み、CeleryとDiscoの2つの実装に焦点を合わせました。Celeryは、すぐに使用できる単純なmap-and-reduceをサポートしていません。「マップ」部分は、TaskSetsを使用して簡単に実行できますが、「reduce」部分を効率的に実装するにはどうすればよいですか。
(ディスコに関する私の問題は、Windowsで実行されないことです。また、プログラムの別の部分にセロリをセットアップしているため、map-reduce用に別のフレームワークを実行するのはかなりエレガントではないようです。)
mapreduce - mapreduce と他の並列処理ソリューションの比較
1. 次の問題に対して mapreduce のオーバーヘッドが高すぎますか? 各マップ/リデュース サイクル (たとえばディスコ) が非常に軽いジョブにかかる時間を知っている人はいますか? 2. この問題に対する mapreduce のより良い代替手段はありますか?
map reduce に関して言えば、私のプログラムは 60 の map フェーズと 60 の reduce フェーズで構成されており、これらすべてを 1 秒で完了する必要があります。この方法で解決する必要がある問題の 1 つは、約 64000 の変数を使用した最小限の検索です。検索用のヘッセ行列はブロック行列で、対角線に沿ってサイズ 64x64 の 1000 ブロックがあり、右端と下に 1 行のブロックがあります。:ブロック行列反転アルゴリズムの最後のセクションは、これがどのように行われるかを示しています。Schur 補数 S_A および S_D のそれぞれは、1 つの mapreduce ステップで計算できます。逆数の計算には、もう 1 ステップかかります。
これまでの私の調査から、mpi4py は良い賭けのようです。各プロセスは計算ステップを実行し、各ステップの後にクライアントにレポートを返すことができ、クライアントはサイクルを継続するための新しい状態変数をレポートすることができます。このようにして、プロセスの状態は失われず、計算を更新して続行できます。 http://mpi4py.scipy.org/docs/usrman/index.html
このwikiにはいくつかの提案がありますが、最も開発されたソリューションに関する方向性を持っている人はいますか ? http://wiki.python.org/moin/ParallelProcessing
ありがとう !