1

NLP 処理などの pyspark に取り組んでいます。TextBlob Python ライブラリを使用しています。

通常、スタンドアロン モードでは、外部の Python ライブラリを簡単にインストールできます。クラスター モードでは、これらのライブラリをワーカー ノードにリモートでインストールする際に問題に直面しています。これらのライブラリを Python パスにインストールするために、各ワーカー マシンにアクセスできません。

ファイルを送信するために Sparkcontext pyfiles オプションを使用しようとしまし.zipたが、問題はこれらの Python パッケージをワーカー マシンにインストールする必要があることです。

この lib-Textblob を Python パスで利用できるようにする別の方法はありますか?

4

1 に答える 1

1

Sparkcontext pyfiles オプションを使用して .zip ファイルを出荷しようとしましたが、問題は、これらの Python パッケージをワーカー マシンにインストールする必要があることです。

デフォルトの URL schema(local:) local:を使用していると思います - local:/ で始まる URI は、各ワーカー ノードにローカル ファイルとして存在することが期待されます。これは、ネットワーク IO が発生しないことを意味し、各ワーカーにプッシュされるか、NFS、GlusterFS などを介して共有される大きなファイル/JAR に適しています。

もう 1 つの URL スキーマはfile: です。すべてのエグゼキューターはドライバー HTTP サーバーからファイルを自動的にプルするため、ワーカー マシンにそれらをインストールする必要はありません。file: - 絶対パスと file:/ URI はドライバーの HTTP ファイル サーバーによって提供され、すべてのエグゼキューターはドライバーの HTTP サーバーからファイルをプルします。

アプリケーションの送信 - 高度な依存関係管理を参照してください。

于 2014-12-11T02:47:31.267 に答える