ログ処理に PIG latin を使用しているのは、Hadoop クラスター全体のセットアップを心配するほどデータが大きくないという問題での表現力が高いためです。ローカル モードで PIG を実行していますが、使用可能なすべてのコア (現時点では 16) を使用していないと思います。CPU を監視すると、最大で 200% の CPU 使用率が示されます。
ローカル実行用に PIG を微調整するためのチュートリアルまたは推奨事項はありますか? すべてのマッパーが、利用可能なすべてのコアを簡単な微調整で使用できると確信しています。(私のスクリプトでは、default_parallel パラメーターを既に 20 に設定しています)
よろしくお願いします。