メモリにロードできない浮動小数点数のベクトル(150kベクトル、各10k次元)の大規模なPython辞書があるため、これをディスクに保存し、必要に応じて特定のベクトルを取得するには、2つの方法のいずれかを使用する必要があります。ベクトルは一度作成されて保存されますが、何回も(何千回も)読み取られる可能性があるため、効率的に読み取ることが非常に重要です。シェルフモジュールでいくつかのテストを行った後、この種のタスクにはsqliteの方が適していると思う傾向がありますが、コードを書き始める前に、これについてもう少し意見を聞きたいと思います...たとえば、他に何かありますか私が知らない2つを除いてオプション?
ここで、最良のオプションがsqliteであることに同意すると仮定すると、別の質問がテーブルの正確な形式に関係します。vector_key, element_no, value
ベクトルのすべての10k要素を同じレコードに格納するのではなく、フォームの行を含むきめ細かい構造を使用して効率的なページ付けを支援することを考えています。この問題に関する提案をいただければ幸いです。