0

100,000 から 100Million にスケールする可能性のある文字列またはフレーズの膨大なリストがあるという問題があります。フレーズを検索すると、データベースへの ID またはインデックスが表示され、さらに操作を行うことができます。これにハッシュテーブルを使用できることは知っていますが、文字列に基づいてインデックスを生成するのに役立ち、オートコンプリートなどの他の機能にも役立つ他のアルゴリズムを探しています.

いくつかの SO スレッドに基づいてサフィックス ツリー/配列を読みましたが、それらは目的を果たしますが、余裕があるよりも多くのメモリを消費します。これに代わるものはありますか?

私の検索は、何百万もの文字列の巨大なリストにしか含まれていないためです。lucene などの検索エンジンに関心のないドキュメントやウェブページはありません。

また、転置インデックスについてもお読みください。役に立ちますが、どのアルゴリズムを勉強する必要がありますか?.

4

1 に答える 1

1

このデータベース インデックスが MS SQL Server 内にある場合、SQL フル テキスト インデックス作成で良い結果が得られる可能性があります。他の SQL プロバイダーにも同様の機能があるかもしれませんが、私はそれらを支援することはできません。

チェックアウト: http://www.simple-talk.com/sql/learn-sql-server/understanding-full-text-indexing-in-sql-server/

http://msdn.microsoft.com/en-us/library/ms142571.aspx

于 2012-09-13T01:34:31.090 に答える