RDD アクセス制御について質問があります。
特定のサーバー (またはそれらのリスト) にのみ保持する必要があるデータがあり、生データをそこに残すことはできません。データは何らかのmap
機能によって処理することができ、その後でのみさらに転送することができます。
Spark またはサポートされているクラスター管理ソリューション (Mesos など) に機能はありますか?
RDD アクセス制御について質問があります。
特定のサーバー (またはそれらのリスト) にのみ保持する必要があるデータがあり、生データをそこに残すことはできません。データは何らかのmap
機能によって処理することができ、その後でのみさらに転送することができます。
Spark またはサポートされているクラスター管理ソリューション (Mesos など) に機能はありますか?
A HadoopRDD
(sc.textFile
たとえば、によって使用される) には、ファイル データがあるマシン上に配置されるアフィニティがあります。( を参照してくださいHadoopRDD.getPreferredLocations
。)map
その後、同じマシンで実行されます。
ただし、これは生データがマシンから出ないことを保証するものではありません。たとえば、マシン上の Spark ワーカーが停止した場合、別のワーカーが別のマシンからそれをロードします。
map
安全なオプションは、「安全な」マシンで 1 つの Spark クラスター (または他の処理システム) を実行し、このクラスターでステップを実行し、「安全でない」マシンで実行されている HDFS (または他のストレージ システム) に結果を書き出すことだと思います。"マシン。次に、「安全でない」マシンで実行されている別の Spark クラスターがデータを処理できます。