IDと一致する必要のあるいくつかの関連フィールドを格納する2つのcsvファイルがあります。現在、Python 2.4では、辞書キーをレコードIDとして、csvファイルをレコードオブジェクトの辞書にロードしています。次に、一方をループしてもう一方のキーを照合し、いくつかの処理を行います。
これはすべて問題なく機能しますが、これは約60,000レコードの比較的小さなcsvファイルにあります。間もなく、何百万ものレコードと、場合によっては複数のcsvファイルを処理する必要があります。現在の方法でのメモリ負荷が気になります。
私は当初、csvリーダーの単純なループについて考えていて、それらをメモリにロードすることはまったくありませんでしたが、他のファイルの100万レコードごとに数百万レコードをループする場合、ここでは非常に非効率的なものを話します。
それで、これを行うための良い方法に関するアイデアはありますか?私はPython2.4で立ち往生しており、csvファイルから実際に変更することはできません。可能であれば、SQLの使用を避けたいと思います。ありがとう
編集:球場の図として、私は最大20個の200MBファイルを見ています。