MemSQL Extractor を使用して Spark ジョブで CSV ファイルを読み取り、Transformer を使用してエンリッチメントを行い、Java を使用して MemSQL データベースにロードしようとしています。
memsql-spark インターフェイス jar があるようですが、有用な Java API ドキュメントや例が見つかりません。
CSV から読み取るエクストラクタの作成を開始しましたが、さらに先に進む方法がわかりません。
public Option<RDD<byte[]>> nextRDD(SparkContext sparkContext, UserExtractConfig config, long batchInterval, PhaseLogger logger) {
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<byte[]> bytes = inputFile.map(ByteUtils.utf8StringToBytes(filePath), String.class); //compilation error
return bytes; //compilation error
}
誰かが始めるための方向性を教えていただければ幸いです...
ありがとう...