データベースの昨日のスナップショットを含むファイルを毎日インポートする必要があります。インポートするには、シェルで次のコマンドを使用します。
./bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \
'-Dimporttsv.separator=|' \
-Dimporttsv.columns=HBASE_ROW_KEY,info:date,info:author,info:text \
tableName \
inputFile.tsv
問題は、各行に更新された値だけでなくすべての値が含まれているため、各列に複数のバージョンがあり、値が同じであることです。
重複した値を無視して、この毎日のスナップショットをインポートする他の方法はありますか? または、これを回避するための提案はありますか?
ありがとうございました!