データベースに保存されている大きなテキスト(5000語以上)を解析し、名前を検索するための最良の方法は何ですか?テキストは多言語になります。
私の最初のアイデアは、大きな文字で始まるすべての単語をデータベースと比較するという、かなり単純なアプローチです。ただし、これは小文字のみを含むテキストでは失敗する傾向があります。
編集 テキストは静的ではなく動的です(例:Webサイト)
一番
Mac
Aho-Corasickアルゴリズムを使用して、一致させようとしている名前で辞書を作成できます。これは、テキスト内のトークンの数と一致した名前の数で線形です。
名前の辞書が必要になります。
または、非常に多くの名前のコレクションを知っているhttp://www.opencalais.com/を試すことができます。
ここで、大きなテキスト内の複数の文字列を置き換える方法を作成しました。多くの文字列を置き換えるためのより良い方法-C#での難読化。おそらく、同じ原則を使用できます。