Postgres データベースから Accumulo データベースにデータを取得する必要があります。これを行うためにシーケンス ファイルを使用して map/reduce ジョブを実行したいと考えていますが、開始方法がわかりません。内部の技術的な理由から、Sqoop を避ける必要があります。
これは Sqoop なしで可能でしょうか? 繰り返しますが、どこから始めればよいか本当にわかりません。すべてのレコード (数百万) を JDBC に読み込み、何らかの形でそれを HDFS シーケンス ファイルに出力する Java クラスを作成する必要がありますか?
ご意見ありがとうございます。
PS - 区切りファイルを使用することが現在の問題であることを言及しておくべきでした。一部は区切り文字を含む長い文字フィールドであるため、正しく解析されません。フィールドにはタブが含まれている場合もあります。Postgres から HDFS に直接、解析せずに移行したかったのです。