Spark や Hive、ビッグデータ、scala など、まったく新しいものです。sqlContext を受け取り、s3 から csv ファイルをロードして DataFrame を返す単純な関数を作成しようとしています。問題は、この特定の csv が ^A (つまり \001) 文字を区切り文字として使用し、データセットが巨大であるため、「s/\001/,/g」を実行できないことです。さらに、フィールドには、区切り記号として使用できるコンマやその他の文字が含まれている場合があります。
私が使用している spark-csv パッケージに区切り文字オプションがあることは知っていますが、エスケープされた 0、0、1 のようなものではなく、\001 を 1 文字として読み取るように設定する方法がわかりません。おそらく、hiveContextなどを使用する必要がありますか?