1

名前の区切り方についての参考文献を探しています。「John A. Doe」のように、最初 = John、中 = A.、最後 = Doe です。メキシコでは、父方、母方、ファーストネーム、セカンドネームがあり、さまざまな順列で書くことができるため、問題は非常に複雑です。

データに依存するため、すべての単語のスコアを計算するマッチング ソフトウェアを使用して、意思決定を行うことができます (これは大きなデータベースに基づいています)。入力データはクリーンではありません。一部の政府の Web ページからインポートされたものであり、人間によってフィルター処理されているため、認識が必要なジャンクが含まれている可能性があります。助言がありますか?

[編集] 例:

名前:
   ハビエル・アブドゥル・コルドバ・ガンダラ
一般的な順列 (または、同じ人を参照する gvt データに表示される可能性がある):
   コルドバ ガンダラ ハビエル アブドゥル
   ハビエル・A・コルドバ・ガンダラ
   ハビエル・アブドゥル・コルドバ G.

父方=コルドバ
母性=ガンダーラ
最初に与えられた: ハビエル
2番目に与えられた:アブドゥル
本名:マリア・デ・ラ・ルス・サンチェス・マルティネス
父方:サンチェス
母方: マルティネス
最初に与えられた: マリア・デ・ラ・ルス
本名:パロマ・ヴィリディアナ・アリン・アリアス・メディナ
父方:アリアス
母体:メディナ
最初に与えられた: パロマ
2番目に与えられた: Viridiana Alin

先ほど言ったように、各単語の意味はスコアによって異なります。それを知る方法はありません

ビリディアナ
アリン
スコアからではない場合、名前が付けられます。

非常に強力なデータベース (8,000 万レコード程度) があるため、スコアリング システムをある程度利用できます。それを使用するアルゴリズムを設計していますが、他の参考文献を探しています。

4

2 に答える 2

1

残念ながら、この作業のかなりの部分を自分で行ったので、理想的なアルゴリズムは非常にデータ固有であり、特定の状況に合わせてこれを実行する必要があります。

このアルゴリズムを開発するための総時間と労力のうち、時間は大まかに次のように分割されると思います。

  1. 一般的な文字列操作の場合は10%
  2. データの特定の性質(メキシコの名前形式、データ入力の癖)の場合は30%
  3. データ品質/品質の欠如に対応するための60%

そして、それは一般的な文字列操作に対して非常に寛大であると私は信じています。もちろん、すべてのレコードに対して高品質の結果が必要か、「クリーンな」レコードのみが必要かなどによって異なります。「難しい」レコードを無視できる場合は、はるかに簡単になります。

いくつかの一般的なヒント

  • 不要な場合は、英数字/空白以外の文字を削除してください
  • スペースで分割
  • ハイフン/句読点を使用して、名前または家族の名前を識別します
  • イニシャル(通常は1文字)は名前ではありません。つまり、最初/中間でなければなりません
  • プログラムで各名前を特定した信頼度を判断します(そしてこれを徹底的にテストします)。個別に対応する必要のある同様のパターンを含むデータのサブセットがある場合があります(それらは異なるソースからのものである可能性があります)。
于 2009-10-27T22:13:54.347 に答える
0

チェックするために、自然言語または機械学習を追加する必要がある場合があります。著者名(科学論文など)を特定する問題は、順序、略語の程度、省略などが異なるため報告される可能性があるため困難です。データベースが汚れていると、何をしてもあいまいになってしまいます。

于 2009-10-27T22:06:54.127 に答える