0

TAB形式(TABの代わりに空白を使用してすべての列がに含まれるようにする)の種類の500 000行(さまざまなクラブのメンバーへのアドレス)のテキストファイルがあります。

一部の行はほとんど同じです(1つの列のみが異なります。1人が2つのクラブのメンバーになることができます)。自宅の住所が同じなので、どの重複行を削除してもかまいませんが、そのうちの1つを削除する必要があります。

EXCEL(TEXT-TO-CELLで重複を見つけて削除します。ただし、形式がTABまたはCSV形式ではないため、列のテキストパターンが失われます。

NOTEPAD ++またはTEXTPADで正規表現を記述して使用するにはどうすればよいですか?

4

1 に答える 1

0

私の解決策:

  1. EXCELでテキストファイルを開き、「固定幅」を使用して列に変換し、いくつかの新しい列を追加します。
  2. EXCELを使用して1つのフォルダーに複製し、それらの行を削除しました
  3. ファイルを「CSV(カンマ区切りは異なります)」としてエクスポートします(このエクスポートでは「åäö」としてのスウェーデン語の文字を保存できなかったため、「CSVWINDOWS」としてではありません)。
  4. ULTRAEDITの無料テストバージョンをダウンロード
  5. 「CSVtoFIXEDWIDTH」を使用して、各列に幅を指定しました
  6. 「;」を削除しました 各列から

終わり!

于 2013-02-21T18:49:14.770 に答える