約 150 万のテキスト ドキュメントのコーパスをスキャンし、長さが 1 ~ 4 の任意の単語セットを、約 180 万のフレーズの語彙と照合する必要があります。
各テキスト ファイルから単語 n-gram を抽出することは問題ではなく、非常に高速です。ボトルネックは語彙に対するチェックにあります。
私の語彙は MySQL テーブルに格納され、適切にインデックスが作成され、次のように各フレーズをクエリしています。
SELECT (1) FROM vocab WHERE phrase=%s;
全体が非常にゆっくりと実行されます。最適化のアイデアはありますか?
ありがとう!