問題タブ [lz4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
198 参照

python - lz4 圧縮された json を解析する方法を改善するにはどうすればよいですか?

非常に大きな(5GBから2TB)圧縮されたjsonファイルを解析し、以下のアルゴリズムでいくつかのデータをcsvファイルに保存しています。機能しますが、3 つのネストされたループがあるため、効率的ではありません。

また、Python が提供する json および yaml ライブラリに慣れていないため、数行のコードのコストもわかりません。

気付かなかった場合は、yaml.load()その行の上の関数を次のように呼び出しています。

header = yaml.load(json.dumps(header))

からのキーの内側の葉(値)がheader文字列として解釈されたため、関数を2回呼び出す必要があったようです。

この行の v の値を単純for k, v in header.iteritems():に出力すると、出力は通常、次の行のいずれかのようになります。

基本的に、私たちのファイルに「不明」と呼ばれるカテゴリがある場合、これは特定のカテゴリのないすべてを含む json ツリーです。

さらに 2 つのループを追加して、アルゴリズムの速度を落とさずにこれらの値をすべて取得するより良い方法はありますか?

完全なメソッド ソース: