1

ユーザーが提供したテキストステートメントから関連する単語を抽出したい。例えば。「長方形には何辺ありますか?」という質問に対して 単語は 'rectangles' 、 'sides' 、 'many' 、 'how' でなければなりません。

まさに私が目指しているのは、NLP の質問応答システムであることがわかりました。しかし今は、質問から必要なキーワードのみを抽出したいと考えています。質問のドメインはそれほど広大ではありません。

さまざまなデータ マイニング ツールに出くわしましたが、それらが実際にこれに役立つかどうかはよくわかりません。それらは少し高度すぎるか、正確に関連していないようです。

要件に合ったツールがあるかどうか、または自分でコーディングしてみる必要があるかどうかを教えてください。

役立つと思われるあらゆる種類のポインターを提供してください。

4

2 に答える 2

1

質問だけの場合は、品詞タグ付け(POS)と固有表現抽出(NER)を試すことができます。特に名詞は興味深いでしょう。同じためのオープンソースツールがいくつかあります。BrillのPOSタガー、Lingpipe、Open NLPなどです。ただし、関心のあるドメインのコーパスもある場合は、次の方法でキーワードやフレーズを抽出できます。他のベースコーパスと比較して、単語やフレーズの頻度がどれほど異なるかを使用します。質問があれば、それらのキーワードやフレーズを探すことができます。

于 2010-10-27T10:43:53.800 に答える
1

POS タグ付けと NER を使用するという srean のアドバイスとは別に、多くの人が検索エンジン ツール (具体的にはLuceneですが、他にもいくつか存在します) を使用して質問に答えています。回答を含む一連のドキュメントにインデックスを付け、質問をクエリとして使用し、一連のドキュメントを取得し、それらをフィルタリングして回答を見つけます。検索エンジン ツールには、用語の重み付けが組み込まれています。

これがベースライン セットアップです。より高度なシステムでは、ストップ ワード フィルタリング、POS タグ付け、解析、NER、遺伝的アルゴリズムなど、質問とドキュメントに対してあらゆる種類の前処理を行います。

このセットアップの例については、このペーパーを参照してください。

于 2010-10-27T14:16:58.647 に答える