ほぼ 100000 エントリを含むテキスト ファイルがあります。それらはすべて、次のような特定のパターンにあります
word1 word2 word3 word4
ただし、これらのエントリの多くは重複しており、すべての単語が同じです。一意のものの配列またはリストを読み取って形成しようとするとき、中間ハッシュ セットを使用しています。そして、それはかなりうまく機能します。
しかし、本質的に達成したいのは、word2 の一意のエントリのみです。word2 が共通で他のすべてが異なる場合と同様に、エントリのいずれかを保持したいと思います。
例えば
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
cat dog deer bear
この場合の望ましい出力は次のようになります。
cat dog lion tiger
mouse rat bear deer
lion tiger cat dog
また
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
現在、ハッシュセットが提供しているものは次のとおりです。
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
データセットが大きい場合、これを効率的に達成する方法についての提案。ここで唯一のオプションは正規表現を使用していますか? 私はC#を使用しています。