特定の要件に合わせて No-SQL データストアを使用することについての提案を受けたいです。
説明させてください: 5 つの csv ファイルを処理する必要があります。各 csv には 500 万行が含まれており、共通 ID フィールドも各 csv に表示されます。したがって、500 万行を反復してすべての csv をマージする必要があります。したがって、python 辞書を使用して、共通 ID フィールドに基づいてすべてのファイルをマージします。しかし、ここでのボトルネックは、python-dictionary では 500 万個のキーをメモリ (< 1gig) に格納できないことです。ということで、No-Sqlを使うことにしました。500万個のキーバリューストレージを処理するのに役立つのではないかと思います。
とにかく、値を更新するためにそれぞれを反復する必要がある 5 つの csv があるため、反復を減らすことはできません。
それに伴う簡単な手順はありますか?この方法でよろしければ、キーと値のペアを処理するための No-Sql データストアを教えていただけませんか?
注:リスト型の値もあります。