2

これはおそらく答えるのが非常に難しい質問ですが、とにかくここに私の質問があります。

会話の話題を決める最善の方法は何だろうと思っています。会話は IRC 経由で行われます。私は過去にトピックをかなりうまく解釈したチャットボットを書いたことがありますが、私が望むほど正確ではありません.

以前は、"the" や "a" などの一般的な単語のリストを作成し、トピック配列からそれらをフィルター処理する必要がありました。これが正しい方法かどうかはわかりませんが。

現在の会話のトピックがどの単語であるかを判断できる、ある種の頻度アルゴリズムがあるかどうか疑問に思っています。

これをどのように達成できるかについての提案は大歓迎です。ありがとう。

4

2 に答える 2

1

自然言語処理は非常に難しい場合がありますが、基礎だけである程度の結果を得ることができます。Daniel Gabriel の Zipf の法則を使用するという提案は良いものです。

Manning と Schütze のFoundations of Statistical Natural Language Processingなどの概要書が役立つ場合があります。多くの一般的な手法が説明されており、より専門的なリソースが紹介されています。

( Introduction to Information Retrievalも優れており、サイトには無料の PDF があります。)

于 2011-12-18T22:17:38.497 に答える
1

ジップの法則というものがあります。人間が書いたテキストにのみ正確に適用でき、ある程度の長さが必要です。

このようなアルゴリズムでテキストを実行すると、テキストのトピックを詳細に説明する一連のキーワード (元のテキストの 5% ~ 7%) が生成されます。

于 2011-12-05T21:58:24.583 に答える