ClouderaSqoopを使用してOracleデータベースからHDFSにデータをフェッチしています。HDFSで®や©に変換されている®や©などの一部の文字を除いて、すべてが順調に進んでいます。(ただし、Oracleではデータは問題なく保存されます)。これらの文字をそのままHDFSに保存する方法はありますか?
Sqoopバージョン:1.3
ありがとう、Karthikeya
表現を見るのではなく、HDFS の実際のバイト数を確認することを強くお勧めします。データが問題なく保存され (実際には Sqoop によって自動的に UTF8 に変換され)、データの読み取りに使用される表現/端末エミュレーター/その他のものがエンコーディングをいじっているケースを非常に多く見てきました。HDFS からファイルをダウンロードしhexdump -C
、エンコーディングが実際に壊れているかどうかを確認します。
Oracle データベースで使用している文字の形式は? Hadoop は UTF-8 形式を使用するため、異なる場合は Oracle データベースからデータを変換する必要があります。