問題タブ [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
161 参照

python - 大きな 30GB の bz2 ファイルを複数の小さな bz2 ファイルに分割し、それぞれにヘッダーを追加する方法

ヘッダーのないbz2フォーマット済みファイル (それぞれ)が多数あります。次のようにして、各サイズ30GBに簡単に分割できます。500Mpileline

['a' 'b' 'c' 'd' 'e' 'f' 'timestamp']しかし、分割された各ファイルに含めたいヘッダーを追加することはできませんbz2

さらに重要なことは、 に基づいてファイルを分割するのではなく、データ内のの内容に基づいて1 日ごとにファイル500Mを分割したいbz2(例:splitted_file_2021-01-01.csv.bz2と)。splitted_file_2021-01-02.csv.bz2timestamp

以下のように、データはタブ区切りのテキストです (ヘッダーはありません。追加する必要があります)。

0 投票する
1 に答える
59 参照

python - Python ijson - 解析エラー: 末尾のゴミ // bz2.decompress()

json を ijson で解析中にエラーが発生しました。

背景: '.bz2' 形式で圧縮された一連の (約 - 1000) の Twitter データの大きなファイルがあります。pd.DataFrameさらに分析するために、ファイルから要素を取得する必要があります。取得する必要があるキーを特定しました。慎重にツイッターのデータをアップしています。

bz2.decompress試行:次のコードを使用してファイルを解凍できました:

これにより、次のエラーが発生します。

2つのこと:

  • 私の解凍方法は正しく、ijson が解析する正しいタイプのファイルを提供していますか (ijson はバイトと str の両方を取ります)?
  • JSONエラーですか?// JSON エラーの場合、次のファイルに移動するエラー ハンドラを開発することは可能ですか?

どんな援助でも大歓迎です。

ありがとう、ジェームズ