テキストブロブから名前を除外しようとしています。現在、単語リストを生成して手動でフィルタリングしていますが、まだ 8,000 個の単語が残っているため、より良い方法を探しています。辞書を引いてフィルターで除外することもできますが、それでは smith や Cliff などの名前が選別されてしまいます。
私が必要とするのは、次のいずれかです。
- 一般的な名前のリスト (5k を超える最も一般的な名前が必要です)
- 単語でもある名前のリスト
ブラックリストとホワイトリストを組み合わせて、必要なものを取得できます。