apache-spark - Spark RDD のアクセス制限とクラスター内の場所

Question

RDD アクセス制御について質問があります。

特定のサーバー (またはそれらのリスト) にのみ保持する必要があるデータがあり、生データをそこに残すことはできません。データは何らかのmap機能によって処理することができ、その後でのみさらに転送することができます。

Spark またはサポートされているクラスター管理ソリューション (Mesos など) に機能はありますか?

score 1 · Accepted Answer

A HadoopRDD(sc.textFileたとえば、によって使用される) には、ファイルデータがあるマシン上に配置されるアフィニティがあります。( を参照してくださいHadoopRDD.getPreferredLocations。)mapその後、同じマシンで実行されます。

ただし、これは生データがマシンから出ないことを保証するものではありません。たとえば、マシン上の Spark ワーカーが停止した場合、別のワーカーが別のマシンからそれをロードします。

map安全なオプションは、「安全な」マシンで 1 つの Spark クラスター (または他の処理システム) を実行し、このクラスターでステップを実行し、「安全でない」マシンで実行されている HDFS (または他のストレージシステム) に結果を書き出すことだと思います。"マシン。次に、「安全でない」マシンで実行されている別の Spark クラスターがデータを処理できます。

apache-spark - Spark RDD のアクセス制限とクラスター内の場所

1 に答える 1

Related

Reference