大量のデータがあり、それらに対していくつかの操作を実行したいと考えています。重複の削除は、主要な操作の 1 つです。
元。
a,me,123,2631272164
yrw,wq,1237,123712,126128361
yrw,dsfswq,1323237,12xcvcx3712,1sd26128361
これらはファイル内の 3 つのエントリであり、最初の列に基づいて重複を削除したいと考えています。したがって、3行目を削除する必要があります。各行には異なる数の列がある場合がありますが、関心のある列は常に存在します。
インメモリ操作は実行可能ではないようです。
別のオプションは、データをデータベースに保存し、そこから重複を削除することですが、これも簡単な作業ではありません。データをデータベースにダンプして重複を削除するには、どのような設計に従う必要がありますか?
人々はそのような問題に直面し、それを解決したにちがいないと思います。
通常、この問題をどのように解決しますか?
PS: これは面接の質問ではなく、実際の問題と考えてください ;)