Hadoop ストリーミングを利用して、Python ベースの HTML グラバーを作成しています。シングルスレッドの Python スクリプトの実行が遅いことがわかりました。マルチスレッド版に変更したい。マッパーのスレッド数を設定するのに適した数を知っている人はいますか? クラスタの各ノードの仕様はわかりませんが、少なくとも 2 つのスレッドをサポートすると思います。
質問する
477 次
2 に答える
0
私はhtmlグラバーにhadoopストリーミングを使用していませんが、複数のスレッド(複数の処理パッケージではなく、単純なマルチスレッド)を使用してurllib2がどのように機能するかについて話している投稿があります。
希望は役に立ちます。
于 2013-10-12T15:05:07.937 に答える
0
Python でスレッド化を使用しようとしましたが、Global Interpreter Lock に問題がありました。マルチプロセッシング モジュールを使用するようにコードを移植しました。内部的に Hadoop はクラスター内のコアと同じ数のマッパーを割り当てます。したがって、スピードアップが必要な場合、マルチプロセッシングは適していません。正しく実行された場合、マルチスレッド化により速度が向上する可能性があります
于 2013-08-15T00:01:59.833 に答える