1

さまざまなアルゴリズムを調査してきましたが、探しているものを正確に見つけられませんでした。

ハミング距離 (同じ長さの文字列にのみ有効) レーベンスタイン距離 (kitten や sitten などの類似語を検索)

私が探しているのは、同じ考えに関する文章を見つけるものです。

例えば:

Sentence 1: Josh got hurt while playing in the park.
Sentence 2: Josh fell off the slide and got hurt at the park.
Sentence 3: Be careful at the park, your kids could get hurt.
Sentence 4: Josh likes to go shopping.

私が探しているのは

sentence 1 and 2トピックについてですが、そうではありません sentence 3 or 4

文中の各単語を比較してみることができると思いますか?

私を正しい方向に向けることができる人なら誰でも大歓迎です。

4

3 に答える 3

3

一般に、自然言語処理 (NLP) を使用する必要があります。このテーマに慣れていない場合は、nltk を参照することをお勧めします。これは、さまざまな NLP 問題のためのツールを含む Python ライブラリです。また、必要なツールを簡単に確認できる無料の本もあります。

www.nltk.org/book/ </p>

役立つことを願っています

于 2014-03-28T12:54:32.067 に答える
1

http://en.wikipedia.org/wiki/Topic_modelをチェックして、人々が共有する隠れた「トピック」の観点からドキュメントをモデル化する方法を確認してください。いくつかの一般的なモデルとアルゴリズムについて説明します。一般に、トピック モデルを探しています。ウィキにあるものよりも高度なものを探している場合は、グーグルで論文を見つける必要があります。

于 2014-03-28T15:45:21.657 に答える
0

レーベンシュタイン距離とハミング距離は、局所レベルでの違いに非常に関係しています。文の背後にあるトピックを探したい場合は、文中のすべての単語を一緒に検討することをお勧めします.

単純な全文アプローチはtf-idfです。各センテンスをドキュメントとして扱い、用語 (単語) がセンテンスに出現する回数を数え、その用語が出現するドキュメントの数で割ると、センテンス内の個別の用語ごとに数が得られます。同じ用語で数字が似ている文は、同じトピックに関するものである可能性があります。

より良いパフォーマンスが必要な場合は、単純なアプローチを使用してから、別の見出し語化または他のグループ化スキームを試すことができます。

各文に関連する数値の単純な比較は、コサイン類似度です。

于 2014-03-28T16:15:18.127 に答える