regex - 同じトピックに関する文を照合するアルゴリズム

Question

さまざまなアルゴリズムを調査してきましたが、探しているものを正確に見つけられませんでした。

ハミング距離 (同じ長さの文字列にのみ有効) レーベンスタイン距離 (kitten や sitten などの類似語を検索)

私が探しているのは、同じ考えに関する文章を見つけるものです。

例えば：

Sentence 1: Josh got hurt while playing in the park.
Sentence 2: Josh fell off the slide and got hurt at the park.
Sentence 3: Be careful at the park, your kids could get hurt.
Sentence 4: Josh likes to go shopping.

私が探しているのは

sentence 1 and 2トピックについてですが、そうではありません sentence 3 or 4。

文中の各単語を比較してみることができると思いますか?

私を正しい方向に向けることができる人なら誰でも大歓迎です。

score 3 · Accepted Answer

一般に、自然言語処理 (NLP) を使用する必要があります。このテーマに慣れていない場合は、nltk を参照することをお勧めします。これは、さまざまな NLP 問題のためのツールを含む Python ライブラリです。また、必要なツールを簡単に確認できる無料の本もあります。

www.nltk.org/book/ </p>

役立つことを願っています

score 1 · Accepted Answer

http://en.wikipedia.org/wiki/Topic_modelをチェックして、人々が共有する隠れた「トピック」の観点からドキュメントをモデル化する方法を確認してください。いくつかの一般的なモデルとアルゴリズムについて説明します。一般に、トピックモデルを探しています。ウィキにあるものよりも高度なものを探している場合は、グーグルで論文を見つける必要があります。

score 0 · Accepted Answer

レーベンシュタイン距離とハミング距離は、局所レベルでの違いに非常に関係しています。文の背後にあるトピックを探したい場合は、文中のすべての単語を一緒に検討することをお勧めします.

単純な全文アプローチはtf-idfです。各センテンスをドキュメントとして扱い、用語 (単語) がセンテンスに出現する回数を数え、その用語が出現するドキュメントの数で割ると、センテンス内の個別の用語ごとに数が得られます。同じ用語で数字が似ている文は、同じトピックに関するものである可能性があります。

より良いパフォーマンスが必要な場合は、単純なアプローチを使用してから、別の見出し語化または他のグループ化スキームを試すことができます。

各文に関連する数値の単純な比較は、コサイン類似度です。

regex - 同じトピックに関する文を照合するアルゴリズム

3 に答える 3

Related

Reference