100,000 から 100Million にスケールする可能性のある文字列またはフレーズの膨大なリストがあるという問題があります。フレーズを検索すると、データベースへの ID またはインデックスが表示され、さらに操作を行うことができます。これにハッシュテーブルを使用できることは知っていますが、文字列に基づいてインデックスを生成するのに役立ち、オートコンプリートなどの他の機能にも役立つ他のアルゴリズムを探しています.
いくつかの SO スレッドに基づいてサフィックス ツリー/配列を読みましたが、それらは目的を果たしますが、余裕があるよりも多くのメモリを消費します。これに代わるものはありますか?
私の検索は、何百万もの文字列の巨大なリストにしか含まれていないためです。lucene などの検索エンジンに関心のないドキュメントやウェブページはありません。
また、転置インデックスについてもお読みください。役に立ちますが、どのアルゴリズムを勉強する必要がありますか?.