hdfs にファイル エンコーディングが混在する 100 GB のファイルがたくさんあります (残念ながら Azure Blob Storage にあります)。各ファイルのファイル エンコーディングを確認するにはどうすればよいですか? いくつかの dfs コマンドライン コマンドが理想的です。ありがとう。
3962 次
2 に答える
2
最終的には、ブロブ ストレージ内の各ファイルの先頭をローカル バッファーにパイプし、file
UNIX ユーティリティを適用することで、必要な結果を得ることができました。個々のファイルに対するコマンドは次のようになります。
hdfs dfs -cat wasb://container@account.blob.core.windows.net/path/to/file | head -n 10 > buffer; file -i buffer
これにより、次のようになります。
buffer: text/plain; charset=us-ascii
于 2016-03-28T21:33:10.990 に答える
0
https://azure.microsoft.com/en-us/documentation/articles/xplat-cli-install/を試すことができます
このコマンドはazure storage blob list
、azure storage blob show
contentType、contentLength、メタデータなど、使用可能なすべての BLOB プロパティを返します。
この情報に必要なもの (ファイル エンコーディング) が含まれていない場合は、ファイルごとに独自のmetadata
ライクを定義/設定する必要があると思います。file-encoding
その後、CLI ツールを使用して元に戻すことができます。
于 2016-03-24T01:38:25.683 に答える