ベース R (2.14.1) を持つ Hadoop クラスターにアクセスできますが、すべてのノードに追加パッケージがインストールされていません。追加のパッケージがないという事実を回避するために、ベース R マッパーとレデューサー ストリーミング スクリプトを作成してきました。ただし、スクリプトの一部として、主に rjson などの特定のパッケージを使用する必要があるところまで来ました。
クラスターの管理者権限がなく、ユーザー アカウントがかなり制限されています。クラスター管理者がすべてのノードにパッケージをインストールすることは (現時点では) オプションではなく、クラスターには外部インターネット アクセスがありません。
rjson_0.2.8.tar.gz ソース ファイルをゲートウェイ ノードにアップロードしました。install.packages("rjson_0.2.8.tar.gz", repos = NULL, lib = /tmp)
スクリプトの開始時にパッケージがインストールされ、ストリーミング ジョブの -cacheArchive パラメータを介してソースを渡すように、R パッケージを一時的に追加することは可能ですか? ジョブが完了すると消えるように、一時的な場所にパッケージをインストールしたいと思います。
これは可能ですか?
オプションであるJSONを処理するためのものであるため、「Pythonを使用する」という回答が得られることはわかっていますが、質問は任意のパッケージに関するものです。:)