問題タブ [bz2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 大きな 30GB の bz2 ファイルを複数の小さな bz2 ファイルに分割し、それぞれにヘッダーを追加する方法
ヘッダーのないbz2
フォーマット済みファイル (それぞれ)が多数あります。次のようにして、各サイズ30GB
に簡単に分割できます。500M
pileline
['a' 'b' 'c' 'd' 'e' 'f' 'timestamp']
しかし、分割された各ファイルに含めたいヘッダーを追加することはできませんbz2
。
さらに重要なことは、 に基づいてファイルを分割するのではなく、データ内のの内容に基づいて1 日ごとにファイル500M
を分割したいbz2
(例:splitted_file_2021-01-01.csv.bz2
と)。splitted_file_2021-01-02.csv.bz2
timestamp
以下のように、データはタブ区切りのテキストです (ヘッダーはありません。追加する必要があります)。
python - Python ijson - 解析エラー: 末尾のゴミ // bz2.decompress()
json を ijson で解析中にエラーが発生しました。
背景: '.bz2' 形式で圧縮された一連の (約 - 1000) の Twitter データの大きなファイルがあります。pd.DataFrame
さらに分析するために、ファイルから要素を取得する必要があります。取得する必要があるキーを特定しました。慎重にツイッターのデータをアップしています。
bz2.decompress
試行:次のコードを使用してファイルを解凍できました:
これにより、次のエラーが発生します。
2つのこと:
- 私の解凍方法は正しく、ijson が解析する正しいタイプのファイルを提供していますか (ijson はバイトと str の両方を取ります)?
- JSONエラーですか?// JSON エラーの場合、次のファイルに移動するエラー ハンドラを開発することは可能ですか?
どんな援助でも大歓迎です。
ありがとう、ジェームズ