0

メールの件名のみ(他のヘッダーがない) がある場合、それらを一連の「関連メッセージ」にクラスタ化するための適切なアルゴリズム (またはパッケージ) はありますか?

という件名のメール

  • Our travel plans

おそらく関連している

  • Re: Our travel plans
  • Re: Re: Our travel plans.

ここまでは良いですが、他にもあります

  • AW: Our travel plans
  • Fwd: Our travel plans
  • Our travel plans (Forward)

それらすべてを 1 つのスレッドにまとめたいと思います。plansなどの件名のメールはRe: Our meeting、もちろん、そのスレッドに入れるべきではありません。私は階層的な結果を非常によく生かすことができました - 実際、私はそれが好きです。なぜなら、同様の内容のメールが互いに「近づく」可能性が高いと期待していたからです。

だから、私はたくさんのアイデアを持っています: サフィックスマッチング、プレフィックスツリー、レーベンシュタイン距離、Q-Gram プロファイル - 多すぎるかもしれません。したがって、私は自問自答します。

4

1 に答える 1

2

シーケンスの比較には、Open Refine (以前の Google Refine) を使用してクラスタリング アルゴリズムを試し、使用するアルゴリズムを微調整して特定します。これには、主要な衝突 (フィンガープリント、ngram、およびダブル メタフォン) と最近傍 (レーベンシュタイン距離と部分一致による予測 (PPM)) が含まれます。

https://github.com/OpenRefine/OpenRefine/wiki/Installation-Instructions

データをインポートしたら、ファセットを使用してクラスタリングを行うだけです。

ファセット > テキスト ファセット > クラスター

于 2013-03-02T20:25:50.597 に答える