名前の区切り方についての参考文献を探しています。「John A. Doe」のように、最初 = John、中 = A.、最後 = Doe です。メキシコでは、父方、母方、ファーストネーム、セカンドネームがあり、さまざまな順列で書くことができるため、問題は非常に複雑です。
データに依存するため、すべての単語のスコアを計算するマッチング ソフトウェアを使用して、意思決定を行うことができます (これは大きなデータベースに基づいています)。入力データはクリーンではありません。一部の政府の Web ページからインポートされたものであり、人間によってフィルター処理されているため、認識が必要なジャンクが含まれている可能性があります。助言がありますか?
[編集] 例:
名前: ハビエル・アブドゥル・コルドバ・ガンダラ 一般的な順列 (または、同じ人を参照する gvt データに表示される可能性がある): コルドバ ガンダラ ハビエル アブドゥル ハビエル・A・コルドバ・ガンダラ ハビエル・アブドゥル・コルドバ G. 父方=コルドバ 母性=ガンダーラ 最初に与えられた: ハビエル 2番目に与えられた:アブドゥル
本名:マリア・デ・ラ・ルス・サンチェス・マルティネス 父方:サンチェス 母方: マルティネス 最初に与えられた: マリア・デ・ラ・ルス
本名:パロマ・ヴィリディアナ・アリン・アリアス・メディナ 父方:アリアス 母体:メディナ 最初に与えられた: パロマ 2番目に与えられた: Viridiana Alin
先ほど言ったように、各単語の意味はスコアによって異なります。それを知る方法はありません
ビリディアナと
アリンスコアからではない場合、名前が付けられます。
非常に強力なデータベース (8,000 万レコード程度) があるため、スコアリング システムをある程度利用できます。それを使用するアルゴリズムを設計していますが、他の参考文献を探しています。