平均 2000 語 (それぞれ) のテキストを含む何百万ものレコードがあり、約 100000 項目の別のリストがあるとします。
例: キーワード リストに「オバマ大統領」のような項目があり、テキスト レコードの 1 つに「..... オバマ大統領....」のような項目があるので、このキーワードを検索したい「..... {オバマ大統領} ....」のように置き換えて、テキスト内のキーワードを強調表示すると、キーワード リストには例のような複数名詞の単語が含まれます。
何百万ものテキスト レコードを含む膨大なリストで、これを行う最速の方法は何ですか?
ノート:
今、私はこの作業を貪欲に行い、単語ごとにチェックして一致させますが、テキスト レコードごとに約 2 秒かかり、0 時間に近い何かが必要です。
また、これは名前付き実体認識のようなものであり、Gate や ... などの多くの NER フレームワークを使用していることも知っていますが、フレームワークでサポートされていない言語でこれが必要なため、手動でこれを行います.