200 万個の文字列があり、それぞれ 1 TB のテキスト データを検索する必要があります。それらすべてを検索することは最善の解決策ではないため、すべての文字列に対して trie のようなデータ構造を作成するより良い方法を考えていました。つまり、その中の各ノードが単語であるトライです。この目的に適したアルゴリズム、データ構造、またはライブラリ (C++) はありますか?
この質問についてもっと説明させてください。
たとえば、次のような文字列があります: s1-「愛してる」 s2-「お元気ですか」 s3-「お元気ですか」
t1-「こんにちは、私の名前は Omid です。コンピューターが大好きです。お元気ですか?」t2-「あなたのすべての願いは叶います、彼らは私に言います...」 t3 t4 . . . t10000
次に、各テキストを検討し、それらの各文字列を検索したいと思います。最後に、この例では次のように言います: t1 には s1 が含まれ、他には何も含まれていません。文字列を検索する効率的な方法を探していますが、毎回愚かではありません。