何億もの JSON レコードを解析し、それぞれの関連コンポーネントをdict
. 問題は、処理しているレコードの数が原因で、Python がの基にdict
なるハッシュ テーブルのサイズを数回増やさざるを得なくなっていることです。これにより、大量のデータを再ハッシュする必要があります。再ハッシュ自体の膨大な量には、多くの時間がかかるようです。dict
したがって、サイズ変更操作の数を最小限に抑えるために、 の基になるハッシュ テーブルに最小サイズを設定する方法があるのだろうかと思います。
この質問の回答から、python の最適化についてこれを読みましたが、のハッシュ テーブルの初期サイズを変更する方法が見つかりません。誰かがこれで私を助けることができれば、私はとても感謝しています.dict
dict
ありがとうございました