私は情報検索のプロジェクトに取り組んでいます。Hadoop/Pythonを使用して完全転置インデックスを作成しました。Hadoopは、ファイルに書き込まれる(word、documentlist)ペアとしてインデックスを出力します。すばやくアクセスできるように、上記のファイルを使用して辞書(ハッシュテーブル)を作成しました。私の質問は、アクセス時間が短いディスクにこのようなインデックスを保存するにはどうすればよいかということです。現在、私はpython pickleモジュールを使用して辞書を保存し、そこからロードしていますが、インデックス全体を一度にメモリに取り込みます(またはそうしますか?)。インデックスを保存および検索する効率的な方法を提案してください。
私の辞書の構造は次のとおりです(ネストされた辞書を使用)
{単語:{doc1:[場所]、doc2:[場所]、....}}
辞書[word].keys()...などで単語を含むドキュメントを取得できるようにします。