テキスト分析についてアドバイスが必要です。プログラムはphpで書かれています。
私のコードは、URL を受け取り、DB に対してサイトの単語を照合し、一致を探す必要があります。
注意が必要な部分は、テキストに表示される単語が常に DB に書き込まれるとは限らないことです。
例:
私のDBにこれらの値があるとしましょう:単語=文字
このサイトには次のようなものがあります。
私は出力することになっています:文字のこと
私のコードは、検索された単語をDBと照合しようとするたびに、いくつかの正規表現を作成します。
見つからない単語ごとに、DB に対して 8 つのクエリを作成します。ほとんどの単語は一致しないため、何百もの単語を含む Web サイト全体について話すと、CPU レベルが急上昇します。
私は、DB に見つからないすべての単語を出現時にグローバルに保存すること (HD は CPU よりもコストが低い)、またはそのすべてを保存するための配列または辞書を作成することを考えました。
私はこのプロジェクトと本当に混乱しています。多くのユーザーにサービスを提供することになっていますが、現在のコードでは、サーバーは 10 ~ 20 のユーザー リクエストで停止します。
何かご意見は?
編集: 検索された単語は英単語ではなく、コードは Windows 2008 サーバーで実行されます