大きなテキストがあり、このテキストを解析して識別したい (たとえば、このテキスト内に存在するウィキペディアのエントリ)。
次のような正規表現を使用することを考えました。
pattern='New York|Barak Obama|Russian Federation|Olympic Games'
re.findall(pattern,text)
...などですが、これは数百万文字の長さになり、reはそれを受け入れません...
私が考えたもう 1 つの方法は、テキストをトークン化し、トークンごとにウィキペディアのエントリを検索することでしたが、特にテキストが大きすぎる場合、これはあまり効率的ではないように見えます...
Pythonでこれを行う方法はありますか?