私は学習目的で、大規模なコレクション用の検索エンジンを作成しようとしています。私は自分の直感から始めました。それから私は調査し、最終的に実用的なモデルに到達しています。
コレクション内のすべての用語を保持するための巨大なハッシュテーブルを作成しています。コレクションからこれを構築するのは非常に費用がかかります。テーブルを計算したら、これをディスクに保存します。これにより、後者のプログラムでこのハッシュテーブルにアクセスしたいときはいつでも、ディスクから再度ロードできます。
それを行うための標準的な方法はありますか、それともこれを行うために独自のファイル形式とハックを発明する必要がありますか?
注:has-tableは、すべての用語の出現を保存するためだけのものです。メインのランキングデータを投稿ファイルに保存し、そのポインターをハッシュテーブルの対応する用語に設定することを計画しています。
私はCで働いています。