0

spark-ec2 スクリプトを使用して AWS EC2 インスタンスを起動したいと考えています。次のエラーが表示されます。

Initializing spark
--2016-11-18 22:33:06--  http://s3.amazonaws.com/spark-related-packages/spark-1.6.3-bin-hadoop1.tgz
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.216.1.3
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.216.1.3|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2016-11-18 22:33:06 ERROR 404: Not Found.
ERROR: Unknown Spark version

インストールされた Spark はローカルで spark-1.6.3-bin-hadoop2.6.tgz から取得されたものであるため、インストールで spark-1.6.3-bin-hadoop1.tgz にアクセスしようとしないでください。init.sh では、HADOOP_MAJOR_VERSION==1 の場合、この Spark バージョンがインストールされます。

      if [[ "$HADOOP_MAJOR_VERSION" == "1" ]]; then
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-hadoop1.tgz
  elif [[ "$HADOOP_MAJOR_VERSION" == "2" ]]; then
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-cdh4.tgz
  else
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-hadoop2.4.tgz
  fi
  if [ $? != 0 ]; then
    echo "ERROR: Unknown Spark version"
    return -1

問題は次のとおりです。

-- http://s3.amazonaws.com/spark-related-packagesには hadoop1 を使用する spark バージョンがないため、spark のインストールが失敗する基本的な理由です。

--HADOOP_MAJOR_VERSION は、私のインストールに Hadoop バージョン 2.x があるにもかかわらず、インストール中に 1 に設定されているようで、上記の問題につながります。

--spark_ec2.py は、インストール中に github から最新の spark-ec2 をプルするため、ローカルで修正できる可能性はありません。このスクリプトを github から直接分岐してハッキングする自信がありません。

これを修正する方法についてのアイデアはありますか?

4

1 に答える 1