2 つの非常に巨大なフラット テキスト ファイル (それぞれ 10 GB 以上) があります。ファイルは多くの行で構成されています。各行は文字列 (約 80 バイト)、区切り文字、そして別の大きな文字列です。最初のファイルの一意のキーのような最初の文字列ですが、2 番目のファイルで繰り返すことができます。したがって、結果ファイルを取得する必要があります-そして、キー(2番目のファイルのように複製される可能性があります)、セパレーター、最初のファイルからの2番目の文字列、および2番目のファイルからの2番目の文字列を含める必要があります。
dictを使用して1番目のファイルから情報を保存することを考えています:キー= someHash(str1)、値=ファイル内の位置、2番目のファイルを介して反復し、結果を3番目のファイルに出力しますしかし、どのハッシュが必要かわかりませんused および if をまったく使用する必要があります そして、衝突の可能性をどのように解決しますか? 最後に、この問題に対する効果的な (メモリ + 時間) ソリューションを構築する方法