問題タブ [azure-data-lake-gen2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python SDK を使用して Azure Data Lake Store (ADLS) Gen 2 に CSV ファイルをアップロードする
[更新 - 2020 年 5 月 15 日 - このコードとフロー全体が寄木細工のファイル形式で動作するようになりました。ただし、CSVを使用したアプローチにはまだ興味があります]
以下のコマンドを使用して、ローカル マシンから ADLS Gen 2 ストレージに csv ファイルをアップロードしようとしています。これは正常に機能しますが、ADLS の結果の csv ファイルは、各行を区切る改行文字のない連続したテキストです。Polybase を使用しているため、この CSV ファイルを Azure Synapse に読み込むことはできません。
入力 CSV -
"col1"、"col2"、"col3"
"NJ","1","1/3/2020"
"NY","1","1/4/2020" ...
私が得る出力CSVはこのようなものです -
"col1","col2","col3""NJ","1","1/3/2020""NY","1","1/4/2020"...
最終的なcsvの各行の後に改行文字があることを確認するにはどうすればよいですか? 各 CSV にはわずか 100,000 レコードしかありません。
私もこのアプローチを試しました-
ここでは、テキスト ファイルのアプローチについて説明している Microsoft のドキュメントを参照しています。
powershell - Azure DataLake gen2 Powershell の制限
Azure Datalake gen2 のコマンドレットで制限を受けています。
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-directory-file-acl-powershell
私はこのコマンドレットを使用しています:
ルートからすべてのファイルとフォルダーの ACL を取得するには、5000 個のオブジェクトの制限があり、5000 個を超えるオブジェクトを含むフォルダーに対して実行すると、次のメッセージが表示されます。
基本的に、そのトークンを使用して、最後に抽出したものから続行できます(データレイクに何百万ものファイルがある可能性があるため、手動で行うのはクレイジーです)。
それを回避したり、何らかの方法でループしたりすることは可能ですか?
ここで私が使用しているスクリプト(正常に動作します。ルートからすべてのファイルのみをレポートするわけではありません):
そのコマンドレットをループして最大 5000 個のオブジェクトを取得するにはどうすればよいですか?
どうもありがとう