1

2 つの非常に巨大なフラット テキスト ファイル (それぞれ 10 GB 以上) があります。ファイルは多くの行で構成されています。各行は文字列 (約 80 バイト)、区切り文字、そして別の大きな文字列です。最初のファイルの一意のキーのような最初の文字列ですが、2 番目のファイルで繰り返すことができます。したがって、結果ファイルを取得する必要があります-そして、キー(2番目のファイルのように複製される可能性があります)、セパレーター、最初のファイルからの2番目の文字列、および2番目のファイルからの2番目の文字列を含める必要があります。

dictを使用して1番目のファイルから情報を保存することを考えています:キー= someHash(str1)、値=ファイル内の位置、2番目のファイルを介して反復し、結果を3番目のファイルに出力しますしかし、どのハッシュが必要かわかりませんused および if をまったく使用する必要があります そして、衝突の可能性をどのように解決しますか? 最後に、この問題に対する効果的な (メモリ + 時間) ソリューションを構築する方法

4

1 に答える 1

0

Python で提供されるハッシュは、暗号的に強力になるように設計されています。つまり、簡単に言えば、プロセッサを集中的に使用することを意味します。スクリプト ソリューションを使用することにした場合は、他のオプションについてこの質問を参照してください。

于 2013-03-25T13:46:16.553 に答える