11

単語が人の名前である可能性が高い/そうでない可能性があることを認識する方法はありますか?

したがって、「理解している」という単語を見ると、0.01の確率が得られますが、「ジョンソン」という単語は0.99の確率を返し、スミスのような単語は0.75を返し、アップルのような単語は0.15を返します。

これを行う方法はありますか?

目標は、誰かが検索した場合、たとえば、検索エンジンは、著者フィールドでとを検索し、タイトルフィールドと抽象フィールドでCharles Darwin galapagosを検索する必要があると推測することです。CharlesDarwingalapagos

4

3 に答える 3

8

私の簡単なハックはこれです:

国勢調査局から人気順にリストを入手してください。無料で入手できます。それぞれの名前に正規化された人気スコアを付けます(1.0 =最も人気があり、0.0 =最も少ない)。

次に、オープンソースの辞書を入手し、調査を行って、すべての単語の頻度スコアをまとめます。ここ、ウィクショナリーで見つけることができます。すべての単語に人気スコア1.0〜0.0を割り当てます。便利なのは、頻度リストに単語が見つからない場合、それはかなり珍しい単語であると見なすことができるということです。

両方のリストで単語を探します。どちらか一方だけの場合は、これで完了です。両方にある場合は、数式を使用して加重確率を計算します...(名前の人気度)/(名前の人気度+その他の人気度)のようになります。どちらのリストにも載っていない場合は、おそらく名前です。

于 2012-09-05T23:24:46.983 に答える
7

自然言語処理の関連タスクは、名前付きエンティティ認識と呼ばれ、人、組織、場所などの名前を処理します。

この問題を解決するために設計されたほとんどのモデルは、本質的に統計的であり、予測にコンテキストと事前知識の両方を使用します。使用できるオープンソースの実装は多数あります。たとえば、StanfordNERです。オンラインデモを参照してください。

于 2012-09-05T23:06:46.227 に答える
0

単語(または文を形成しない一連の単語)だけに基づいて、私は「いいえ」と言うか、少なくとも「既知の単語辞書」ルックアップよりも多くの情報を提供できるものはないと思います。

ロケールが異なれば、確率も異なります。これは、文中の単語の位置と、それが名前であるか他の名詞/動詞であるかを示す他の単語です。

たとえば、「Word」は次のようになります。

  1. 名詞-「ページの単語がぼやけている」
  2. 動詞-「文章を注意深く言います」
  3. 形容詞-「私はワードゲームが好きです」
  4. 固有名-「私の友達の言葉は私にいいです」

それはすべて、文の文脈と位置に依存します-そしてこのための規則は言語から言語へと変化します。また、新しい名前が定期的に発明されています。来年の最も人気のある赤ちゃんの名前は、「リアム」ではなく「ガラパゴス」かもしれません。

于 2012-09-05T22:52:00.827 に答える