約100GBのデータを約10MBの.csvファイルに保存しています。このデータに対する数千のクエリのルックアップ速度を最適化するにはどうすればよいですか?具体的には、どのテクノロジーを検討するか、または相対的なパフォーマンスをどのように見積もるかがわかりません。
各ファイルは日付に固有であり、複数の人のデータが含まれています。次に例を示します。
...
2005-07-03, "Daffy Duck", ...
2005-07-03, "Daffy Duck", ...
2005-07-03, "Mickey Mouse", ...
2005-07-03, "Mickey Mouse", ...
...
数千の日付/名前のペアについて、特定の日付/名前に対応するすべての情報を取得したいと思います。同等のSQLクエリはSELECT * FROM myDB WHERE Date='2005-07-03' AND Name='Mickey Mouse'
。
現在、データベースにデータをロードしていません。「クエリ」を実行するために、適切な日付ファイルを見つけて、探している名前で行をフィルタリングします。リレーショナルデータベース、noSQLデータベース、またはその他の方法でデータを保存すると、パフォーマンスが向上しますか?もしそうなら、なぜそしてどのくらいですか?