5

テキストブロブから名前を除外しようとしています。現在、単語リストを生成して手動でフィルタリングしていますが、まだ 8,000 個の単語が残っているため、より良い方法を探しています。辞書を引いてフィルターで除外することもできますが、それでは smith や Cliff などの名前が選別されてしまいます。

私が必要とするのは、次のいずれかです。

  • 一般的な名前のリスト (5k を超える最も一般的な名前が必要です)
  • 単語でもある名前のリスト

ブラックリストとホワイトリストを組み合わせて、必要なものを取得できます。

4

2 に答える 2

5

米国国勢調査名リスト: http://www.census.gov/genealogy/www/

とにかく、これで問題の 1 つの角度が得られるはずです。

ページの移動に関する以下のコメントに従って、変更された URL を編集しました。もう誰も HTTP 302 を信じていませんか?

于 2010-01-27T22:58:07.577 に答える
2

Quoraで見つけた投稿から:

CMU の NELL プロジェクトは、Web から固有名詞の膨大なリストを収集し、タイプ別に分類しました。NELL KnowledgeBase Browserでオンラインで閲覧し、 Resources & Dataでデータをダウンロードできます。

たとえば、personUSの結果を Web スクレイピングする方が、大きなタブ区切りの CSV ファイルで「person」とタグ付けされたフレーズから名前のリストを抽出するという方法よりも効率的です。いずれにせよ、正規表現を使用します。

于 2016-06-21T15:57:40.810 に答える