Spark では、次のような Hadoop 構成設定を設定できます。
System.setProperty("spark.hadoop.dfs.replication", "1")
これは機能し、レプリケーション ファクターは 1 に設定されます。これが事実であると仮定すると、このパターン (通常の Hadoop 構成プロパティの前に "spark.hadoop." を追加する) は、textinputformat.record.delimiter に対しても機能すると考えました。
System.setProperty("spark.hadoop.textinputformat.record.delimiter", "\n\n")
ただし、spark はこの設定を無視しているようです。textinputformat.record.delimiter
を正しい方法で設定していますか? を設定する簡単な方法はありますかtextinputformat.record.delimiter
。InputFormat
2 つの改行で区切られたレコードを取得する必要があるだけなので、自分で を書くことは避けたいと思います。