0

私は配列、S & T、含む単語 (小文字、トリミング、分音符号なし) を作成する必要があります。単語数は異なる場合があります。(ほとんどのデータは一種の固有名詞で、かなり短い (<5))

これらの配列の類似性のレベルを計算できる、優れたメトリック (およびその実装、またはおそらく研究論文) を見つける必要があります。

私がこれまでに持っているいくつかのアイデア:

  • 両方の配列に存在するすべての単語をスコアリングする
  • 両方の配列の同じ場所にあるすべての単語をスコアリングする
  • 最長共通シーケンスのスコア付け
  • 上記のすべて + インデックスの相対位置を考慮 (最初の方が重要)
  • 文字の代わりに単語を使用するある種のレーベンシュタイン (挿入/削除カウント)

他のアイデアはありますか?

4

3 に答える 3

1

私にとっては、 bag-of-wordsモデル http://en.wikipedia.org/wiki/Bag-of-words_modelを使用してドキュメントをモデリングしているように見えます

アプリケーションに応じて、アプリケーションで述べたように、2 つのbag-of-words特徴ベクトルを比較するために異なる基準を使用できます。さらに、トピック モデルhttp://en.wikipedia.org/wiki/Topic_modelなど、異なる単語/文間の関係を静的に学習することに基づくモデルがあります。

于 2012-10-19T07:33:50.553 に答える
0

配列がかなり短い場合は、単語の類似性に関するルーブリックがあれば、単語の最適な組み合わせを見つけることができます。次に、最適なペアリングをペアリングするためにストリングをどれだけ回転/ゆがめなければならないかについて、いくつかのスコアを上に重ねます。これは、ある種の乗数または他のシステムである可能性があります。

自然言語処理で最近学習した単語の類似性の指標の 1 つは、レーベンシュタイン距離です。Smith-Waterman アルゴリズム (ウィキ ページにリンクされています) など、他のより複雑なバリアントがあります。これらのアルゴリズムは、正書法の類似性を測定することを目的としているため、形態素解析で使用され、類似した単語が外観にどのように基づいているかを判断します。Smith-Waterman アルゴリズムは、1 つの単語が他の単語の中に含まれている場合、接尾辞/接頭辞の長さに関係なく、それらは非常に類似していると述べています。

于 2012-10-19T04:32:04.053 に答える
0

文字列が西洋の名前である場合、Soundex が出発点になる可能性があります。

于 2012-10-19T04:42:48.013 に答える