これが私の問題です。
たくさんのデータを取り込みたい....現在、数百万行、後には数十億行。
私はMySQLを使用していて、今はPostgreSQLで遊んでいます。
挿入は簡単ですが、挿入する前に、その特定のレコードが存在するかどうかを確認したいのですが、存在する場合は挿入したくありません。DBが大きくなるにつれて、この操作は(明らかに)ますます長くなります。
私のデータがハッシュマップにある場合、ルックアップはo(1)になるので、ルックアップに役立つハッシュインデックスを作成すると思いました。しかし、毎回ハッシュを再度計算する必要がある場合は、プロセスが大幅に遅くなることに気付きました(インデックスを計算しない場合は、o(1)ルックアップがありません)。
だから私は困惑しています、簡単な解決策はありますか?それとも複雑なものですか?他のデータストアを試してみるのはうれしいですが、WHERE句を使用したSELECTステートメントに似たような、かなり複雑なクエリを実行できる必要があるため、no-sqlソリューションが適用できるかどうかはわかりません。
私は非常に初心者なので、些細な解決策があったとしても驚かないでしょう。