見る
$SPARK_HOME/python/pyspark/java_gateway.py
Java/Scala バックエンドとのインターフェースに使用されるメカニズムが表示されます。
次に示すように、1 つ以上の Java ファイルを更新する必要があります。
java_import(gateway.jvm, "org.apache.spark.SparkConf")
java_import(gateway.jvm, "org.apache.spark.api.java.*")
java_import(gateway.jvm, "org.apache.spark.api.python.*")
java_import(gateway.jvm, "org.apache.spark.mllib.api.python.*")
# TODO(davies): move into sql
java_import(gateway.jvm, "org.apache.spark.sql.*")
java_import(gateway.jvm, "org.apache.spark.sql.hive.*")
java_import(gateway.jvm, "scala.Tuple2")
これらはSpark-Java
エントリ ポイントを表します。
Pyspark
Spark-Java
Scala に直接アクセスする代わりに、エントリ ポイントを使用します。(a) これらの API クラスで既存のものを使用するか、(b) それらのクラスに新しいエントリ ポイントを追加して独自のバージョンの Spark を構築する必要があります。