NLP 処理などの pyspark に取り組んでいます。TextBlob Python ライブラリを使用しています。
通常、スタンドアロン モードでは、外部の Python ライブラリを簡単にインストールできます。クラスター モードでは、これらのライブラリをワーカー ノードにリモートでインストールする際に問題に直面しています。これらのライブラリを Python パスにインストールするために、各ワーカー マシンにアクセスできません。
ファイルを送信するために Sparkcontext pyfiles オプションを使用しようとしまし.zip
たが、問題はこれらの Python パッケージをワーカー マシンにインストールする必要があることです。
この lib-Textblob を Python パスで利用できるようにする別の方法はありますか?