メールの件名のみ(他のヘッダーがない) がある場合、それらを一連の「関連メッセージ」にクラスタ化するための適切なアルゴリズム (またはパッケージ) はありますか?
という件名のメール
Our travel plans
おそらく関連している
Re: Our travel plans
とRe: Re: Our travel plans
.
ここまでは良いですが、他にもあります
AW: Our travel plans
Fwd: Our travel plans
Our travel plans (Forward)
それらすべてを 1 つのスレッドにまとめたいと思います。plans
などの件名のメールはRe: Our meeting
、もちろん、そのスレッドに入れるべきではありません。私は階層的な結果を非常によく生かすことができました - 実際、私はそれが好きです。なぜなら、同様の内容のメールが互いに「近づく」可能性が高いと期待していたからです。
だから、私はたくさんのアイデアを持っています: サフィックスマッチング、プレフィックスツリー、レーベンシュタイン距離、Q-Gram プロファイル - 多すぎるかもしれません。したがって、私は自問自答します。