scala - spark-csv で区切り文字として ^A (つまり \001) を使用する csv を解析する方法は?

Question

Spark や Hive、ビッグデータ、scala など、まったく新しいものです。sqlContext を受け取り、s3 から csv ファイルをロードして DataFrame を返す単純な関数を作成しようとしています。問題は、この特定の csv が ^A (つまり \001) 文字を区切り文字として使用し、データセットが巨大であるため、「s/\001/,/g」を実行できないことです。さらに、フィールドには、区切り記号として使用できるコンマやその他の文字が含まれている場合があります。

私が使用している spark-csv パッケージに区切り文字オプションがあることは知っていますが、エスケープされた 0、0、1 のようなものではなく、\001 を 1 文字として読み取るように設定する方法がわかりません。おそらく、hiveContextなどを使用する必要がありますか？

score 30 · Accepted Answer

GitHub ページを確認すると、delimiterspark-csv のパラメーターがあります (ご指摘のとおり)。次のように使用します。

val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .option("delimiter", "\u0001")
    .load("cars.csv")

scala - spark-csv で区切り文字として ^A (つまり \001) を使用する csv を解析する方法は?

2 に答える 2

Related

Reference