Web ページのいくつかのテーブルを分析するために使用できる名前の良いソースを誰か提案できますか?
私がスクレイピングしているテーブルの最初の列には、名前だけ、名前とタイトル、またはタイトルだけがあります。
名前は、ジョン・スミスからヴィクラム・サクセナまでさまざまです。
私は、固有名詞に含まれる単語のコンパイルされたリストを探し回っています。
編集済み国勢調査から設定された名前を試してみましたが、ゴミが多すぎて作業する価値がありません.
Web ページのいくつかのテーブルを分析するために使用できる名前の良いソースを誰か提案できますか?
私がスクレイピングしているテーブルの最初の列には、名前だけ、名前とタイトル、またはタイトルだけがあります。
名前は、ジョン・スミスからヴィクラム・サクセナまでさまざまです。
私は、固有名詞に含まれる単語のコンパイルされたリストを探し回っています。
編集済み国勢調査から設定された名前を試してみましたが、ゴミが多すぎて作業する価値がありません.
Febrl プロジェクトのソース コードをダウンロードします。
そのデータ フォルダには、名前のテーブルが含まれています (given/middle/surnames/etc)。独自のニーズに合わせてデータをマッサージする必要がある場合があります。
姓については、米国国勢調査のデータを確認できます。私は今リンクを持っていませんが、以前にそのソースからの一般的な米国の姓を使用したことを知っています.