Hadoop ストリーミングで DistributedCache と同様の依存関係を処理する標準的な方法はありますか (Java MR で)
たとえば、すべてのマップ タスクで使用する Python モジュールがあるとします。どうすれば達成できますか?
Hadoop ストリーミングで DistributedCache と同様の依存関係を処理する標準的な方法はありますか (Java MR で)
たとえば、すべてのマップ タスクで使用する Python モジュールがあるとします。どうすれば達成できますか?
-file 引数を使用して、python モジュールを指定できます。
http://hadoop.apache.org/docs/r0.18.3/streaming.htmlを参照してください
依存モジュールなどがある場合は、複数の -file 引数を指定できます。