問題タブ [python-s3fs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - S3 バケット内のすべての個別のプレフィックスのリストを取得する方法は?
次のようなディレクトリ構造があり、接頭辞が /folder1 の場合、
各リーフフォルダー内のファイルを個別に読み取るために、これらのディレクトリを動的にループしたい、つまりリストが必要です
最後の (リーフ) フォルダーに到達するまで、各プレフィックスを再帰的にループする、次のレベルのプレフィックスを取得する、連結する、次のレベルを取得するなど以外に、それを取得するより良い方法はありますか?
python - gzip された大きな .tsv ファイルを s3 からストリーミングして処理し、s3 の新しいファイルに書き戻す方法は?
s3://my-bucket/in.tsv.gz
ロードして処理したい大きなファイルがあり、その処理済みバージョンを s3 出力ファイルに書き戻しますs3://my-bucket/out.tsv.gz
。
- すべてのファイルをメモリにロードせずにs3から直接合理化するにはどうすればよいですか
in.tsv.gz
(メモリに収まりません) - 処理された gzip ストリームを s3 に直接書き込むにはどうすればよいですか?
.tsv
次のコードでは、入力 gzip されたデータフレームを s3 からロードする方法と、それがローカルに配置されている場合にどのように記述するかを示していbucket_dir_local = ./
ます。
編集:smart_openは行くべき道のように見えます。