メッセージの本文とヘッダーに基づいて計算されたハッシュ コードを使用して、すべての過去の電子メールとニュースを個別のメッセージ ファイルとして保存し、インデックスを作成したいと考えています。次に、検索用に、他のものにも索引を付けます。
プライマリ インデックス キーについては、ハッシュ アルゴリズムに SHA-1 を使用し、衝突が発生しないと想定することを考えています (理論的には衝突が発生する可能性があることは知っていますが)。
本文の他に、どのヘッダーにインデックスを付ける必要がありますか? または、より一般的には、ハッシュする前にメッセージのメモリ内コピーにどのような変換を適用する必要がありますか?
「ReSent-*:」ヘッダーを無視する必要がありますか? 行区切りヘッダーを単一行ヘッダーに結合し、不要な空白を削除する必要がありますか?
(Message-ID ヘッダーではなくヘッドに基づいてメッセージのインデックスを作成する理由は、Message-ID ヘッダーが均一にフォーマットされていないためです。)