姓から人の国籍を予測するには、どのようなアプローチを使用できますか?
私は著者のテキストと姓の膨大なリストを持っています。特定の文体パターンがグループ間で異なるかどうかを調べるために、どのテキストがラテン語話者によって書かれ、どのテキストが英語を母国語とする話者によって書かれたかを特定したいと思います。
Google と pubmed で姓のデータベースを調べましたが、無料でアクセスできるものは見つかりませんでした。別のアプローチは、「.*ez」などの正規表現を使用して、「rodriguez」などのヒスパニック系の姓を識別することですが、あまりうまくいきません。
何か提案はありますか?予測を行った後にすべての関連付けを手動で修正するため、それほど正確である必要はありませんが、助けやアイデアは大歓迎です。