0

プレーンテキストから名前 (firstname と lastName s ) を解析する方法はありますか?名前はどの国のものでもかまいません。今のところ、取得できる名前のデータベースを構築しています。他に良い方法はありますか?

4

1 に答える 1

1

一般的な NLP では、この問題はNER (Named Entity Recognition)問題のサブセットです。少なくとも次の 2 つの方法でアプローチできます。

  • ルールベースのシステム - 辞書のチェック、一部の Mr.、Phd の正規表現などの単純なルールを作成します。プレフィックスなどを使用し、それらに基づいて抽出します
  • 機械学習ベースのシステム - 各単語トークンをいくつかの語彙的および統計的特性で特徴付け、特定の単語 (トークン) が名字か姓かを検出するために、いくつかの分類器 ( HMMCRFなど) をトレーニングします。
于 2013-09-18T11:57:15.787 に答える