0

最近、大きなテキスト ファイルを扱う作業を行っています。as quotecharを使用してそれらを CSV 形式に変換しました|が、テキスト ファイル内で文全体が繰り返されている場合があることがわかりました。文の長さはさまざまです。私の目的は、CSV ファイルから重複した文を削除することです。明確にするために、次のようになります。

|something irrelevant|,|sentence1|  
|something irrelevant|,|sentence2|  
|something irrelevant|,|sentence3|  
|something irrelevant|,|sentence4|  
...  
|something irrelevant|,|sentence100,000|

2 番目の列の一部は繰り返しです。正規表現の経験はありますが、これに使用できるものは見たことがありません。正規表現はこれにアプローチする正しい方法ですか、それともより良い代替手段はありますか? アドバイスをいただければ幸いです。

4

1 に答える 1

0

Ok。次のように、テキスト ファイルから重複する文を削除しました。

  1. CSV形式に変換
  2. Excelにインポート
  3. 文章が含まれている列のExcelで「重複を削除」機能を使用します
  4. CSVファイルとしてエクスポート
  5. テキストに戻す

これはおそらく最も効率的な方法ではありませんが、機能し、実行するのは非常に簡単です。以前は複雑な正規表現を書いたり Python をいじったりして多くの時間を無駄にしていたので、これで誰かの時間を節約できるかもしれません。

于 2013-07-13T12:29:24.447 に答える