0

Hadoop ストリーミングを利用して、Python ベースの HTML グラバーを作成しています。シングルスレッドの Python スクリプトの実行が遅いことがわかりました。マルチスレッド版に変更したい。マッパーのスレッド数を設定するのに適した数を知っている人はいますか? クラスタの各ノードの仕様はわかりませんが、少なくとも 2 つのスレッドをサポートすると思います。

4

2 に答える 2

0

私はhtmlグラバーにhadoopストリーミングを使用していませんが、複数のスレッド(複数の処理パッケージではなく、単純なマルチスレッド)を使用してurllib2がどのように機能するかについて話している投稿があります。

希望は役に立ちます。

于 2013-10-12T15:05:07.937 に答える
0

Python でスレッド化を使用しようとしましたが、Global Interpreter Lock に問題がありました。マルチプロセッシング モジュールを使用するようにコードを移植しました。内部的に Hadoop はクラスター内のコアと同じ数のマッパーを割り当てます。したがって、スピードアップが必要な場合、マルチプロセッシングは適していません。正しく実行された場合、マルチスレッド化により速度が向上する可能性があります

于 2013-08-15T00:01:59.833 に答える