0

RDD アクセス制御について質問があります。

特定のサーバー (またはそれらのリスト) にのみ保持する必要があるデータがあり、生データをそこに残すことはできません。データは何らかのmap機能によって処理することができ、その後でのみさらに転送することができます。

Spark またはサポートされているクラスター管理ソリューション (Mesos など) に機能はありますか?

4

1 に答える 1

1

A HadoopRDD(sc.textFileたとえば、によって使用される) には、ファイル データがあるマシン上に配置されるアフィニティがあります。( を参照してくださいHadoopRDD.getPreferredLocations。)mapその後、同じマシンで実行されます。

ただし、これは生データがマシンから出ないことを保証するものではありません。たとえば、マシン上の Spark ワーカーが停止した場合、別のワーカーが別のマシンからそれをロードします。

map安全なオプションは、「安全な」マシンで 1 つの Spark クラスター (または他の処理システム) を実行し、このクラスターでステップを実行し、「安全でない」マシンで実行されている HDFS (または他のストレージ システム) に結果を書き出すことだと思います。"マシン。次に、「安全でない」マシンで実行されている別の Spark クラスターがデータを処理できます。

于 2015-05-05T09:49:36.267 に答える