3

検索エンジンではなく、ユーザーと検索エンジンの間の架け橋を書いています。私の付加価値の一部は、クエリの意図を推測することです。追跡番号、銘柄記号、または住所の意図は明らかです。クエリを分類できれば、ユーザーが検索結果を表示する必要があるかどうかを判断できます。もちろん、それができない場合は、検索結果が表示されます。私は現在、この推論エンジンを設計しています。

私はパーサーを書いています。特定のトークンを取り、それにカテゴリを割り当てる必要があります。理論的な英語の例を次に示します。

  • 「デンバー」は USCITY と PLACENAME です
  • 「aapl」は NASDAQSYMBOL および STOCKTICKERSYMBOL です
  • 「555 555 5555」は USPHONENUMBER です

これらのケースのそれぞれに特定の処理が必要になる可能性が高いことはわかっていますが、どこから始めればよいかわかりません。

理想的には、次のような単純なものになります。

queryCategory = magicCategoryFinder( query )

    >print queryCategory
    >"SOMECATEGORY or a list"
4

5 に答える 5

3

自然言語の解析は複雑なトピックです。ここでの問題の 1 つは、単語が何であるかを決定することが、文脈と暗黙の知識に依存することです。また、単語のグループに興味があるので、単語にはあまり興味がありません。「New York City」は場所ですが、その 3 つの単語のうちの 2 つ (new と city) には別の意味があると考えてください。

また、あいまいさを考慮する必要があります。ここでも、コンテキストと暗黙の知識が登場します。たとえば、JAVA は、Sun Microsystems の株式記号です (またはかつてありました)。プログラミング言語でもあり、場所でもあり、コーヒーにまつわる意味があります。どのように分類しますか?それが使用されたコンテキストを知る必要があります。

そして、その問題を確実に解決できれば、非常に裕福になることができます。

とにかく、これは何を助けているのですか?

于 2010-01-28T03:21:28.580 に答える
3

「タグ付け」(やろうとしていることを表す専門用語) について学ぶには、NLTK のタグ モジュールをいじってみることをお勧めします。より一般的に言えば、Natural Language ToolKit であるNLTKは、自然言語処理の分野での実験と学習のための (Python プログラミング言語に基づく) 優れたツールキットです (特定の本番アプリケーションに適しているかどうかは別の問題かもしれません。特に.そのアプリケーションが大量のデータに対して非常に高速な処理を必要とする場合 -- ただし、実行する前に歩く必要があります!-)。

于 2010-01-28T03:27:16.563 に答える
1

今日のコンピューター サイエンスで最も難しい問題の 1 つに直面しています...英語の文脈からセマンティクスを決定することです。これは古典的なテキスト マイニングの問題であり、いくつかの非常に高度なトピックに入ります。あなたの問題についてもっと考えて、a) 分類せずに行くか、b) ドキュメントの位置などの構造情報を利用してヒントを与えるかどうかを確認することをお勧めします (都市、地名、または未定のいずれかです) ) と、役立つルックアップ テーブルがいくつかあります。つまり、株式シンボルは、かなり完全なルックアップを作成するのが非常に簡単です。都市を検索するために、CIA ワールド ファクトブックをダウンロードすることを検討してください。

于 2010-01-28T03:22:34.473 に答える
1

他の人がすでに指摘しているように、これは非常に難しい作業です。古典的なテストは文のペアです:

  1. 時間は矢のように過ぎ去ります。
  2. ショウジョウバエはバナナのように飛ぶ。
最初の文の「flies」は動詞です。2 番目は、名詞の一部です。前者の「好き」は副詞ですが、後者は動詞です。文脈上、これを簡単に区別することもできません。「Time」と「Fruit」(どちらも通常は名詞)の間に明らかな違いはありません。同様に、「arrow」と「bananna」はどちらも通常は名詞です。

それは可能ですが、実際には明らかに自明ではありません。

于 2010-01-28T03:32:43.063 に答える
1

あいまいさの解消にはあまり役立たないかもしれませんが、Cycを使用できます。これは、AI アプリケーションで使用することを意図したものに関する巨大なデータベースです (ただし、成功例は聞いたことがありません)。

于 2010-01-28T03:33:42.843 に答える