私は、ページに 10000 の単語が含まれる Web コンテンツ フィルタリングに取り組んでいます。これを 1500 ~ 2500 語の辞書と照合する必要があります。そして、ページに単語が存在するかどうかを確認する必要があります。
私のパターンをより速く検索して保存するための最良のデータ構造を提案してください。私はツリー構造を研究しました。しかし、次の文字に 26 通りの可能性がある単語 (abc) を考えてみましょう。次のノードのために 26 個のポインターを保持する必要があります。(26x4 バイトを消費します)。単語ごとにパターンを保存するために、それほど多くのメモリを費やすことはできません。
最高の検索と最高のメモリを提案してください。
私はこの分野の初心者です。