5

何億もの JSON レコードを解析し、それぞれの関連コンポーネントをdict. 問題は、処理しているレコードの数が原因で、Python がの基にdictなるハッシュ テーブルのサイズを数回増やさざるを得なくなっていることです。これにより、大量のデータを再ハッシュする必要があります。再ハッシュ自体の膨大な量には、多くの時間がかかるようです。dictしたがって、サイズ変更操作の数を最小限に抑えるために、 の基になるハッシュ テーブルに最小サイズを設定する方法があるのだろうかと思います。

この質問の回答から、python の最適化についてこれを読みましたが、のハッシュ テーブルの初期サイズを変更する方法が見つかりません。誰かがこれで私を助けることができれば、私はとても感謝しています.dictdict

ありがとうございました

4

1 に答える 1

2

これを行う場合:

a = dict.fromkeys(range(n))

ディクショナリのサイズが n 項目に対応するように強制します。その後はかなり速いですが、そうするのに3秒かかります。

于 2012-07-06T02:38:56.970 に答える