現在、大量の Twitter ファイルを処理するための Python コードを作成しています。これらのファイルは非常に大きいため、メモリに収まりません。彼らと仕事をするには、基本的に2つの選択肢があります。
ファイルをメモリに収まる小さなファイルに分割できます。
大きなファイルを 1 行ずつ処理できるので、一度にファイル全体をメモリに収める必要はありません。実装を容易にするために、後者をお勧めします。
ただし、ファイル全体をメモリに読み込み、そこから操作する方が速いかどうか疑問に思っています。ディスクから常にファイルを 1 行ずつ読み取るのが遅いようです。しかし、繰り返しになりますが、これらのプロセスが Python でどのように機能するかを完全には理解していません。ファイル全体をメモリに読み込んでそこから操作する場合よりも、ファイルを 1 行ずつ読み込むとコードが遅くなるかどうかは誰にもわかりませんか?