最近、大きなテキスト ファイルを扱う作業を行っています。as quotecharを使用してそれらを CSV 形式に変換しました|
が、テキスト ファイル内で文全体が繰り返されている場合があることがわかりました。文の長さはさまざまです。私の目的は、CSV ファイルから重複した文を削除することです。明確にするために、次のようになります。
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
2 番目の列の一部は繰り返しです。正規表現の経験はありますが、これに使用できるものは見たことがありません。正規表現はこれにアプローチする正しい方法ですか、それともより良い代替手段はありますか? アドバイスをいただければ幸いです。