prediction - 姓から人の国籍を推測する方法は？

Question

姓から人の国籍を予測するには、どのようなアプローチを使用できますか?

私は著者のテキストと姓の膨大なリストを持っています。特定の文体パターンがグループ間で異なるかどうかを調べるために、どのテキストがラテン語話者によって書かれ、どのテキストが英語を母国語とする話者によって書かれたかを特定したいと思います。

Google と pubmed で姓のデータベースを調べましたが、無料でアクセスできるものは見つかりませんでした。別のアプローチは、「.*ez」などの正規表現を使用して、「rodriguez」などのヒスパニック系の姓を識別することですが、あまりうまくいきません。

何か提案はありますか？予測を行った後にすべての関連付けを手動で修正するため、それほど正確である必要はありませんが、助けやアイデアは大歓迎です。

score 4 · Accepted Answer

ある程度の信頼性でこれを行うことはできないと思います。ロドリゲスはスペイン起源の名前を持っている可能性がありますが、どこで生まれ育った可能性があります. 彼らは英国の第 2 世代である可能性があり、周囲でスペイン語を話したことがないため、英語を母国語とするカテゴリに分類されます。

score 3 · Accepted Answer

実際の作者の場合は、Amazonをスパイダーして、「作者情報」の詳細を確認できますか？

推測できないと思います。例：アイルランドの姓-アイルランドの遺産を持つ推定8000万人がいますが、そのうち450万人がアイルランドに住んでおり、アイルランドの教育を受けています。

score 2 · Accepted Answer

これを行う意味のある方法はありません。ヒスパニックの名前を持つ人々がネイティブの英語を話すことができない理由はありません。

とにかく修正するつもりなら、持っているデータを使ってみませんか？

score 1 · Accepted Answer

テキストのプログラムによる比較を行うつもりであると仮定すると、テキストを手動で分類する必要があります。推測が正しくないと、テキスト分析用の壊れたアルゴリズムを構築する可能性があります。これは、人工ニューラルネットワークなどの機械学習で特に問題になります。

4 に答える 4