私は最初にこの質問をしました:リストから重複ドメインを削除するための gVim の正規表現
ただし、どのソリューションを受け入れるかという点で「範囲を広げる」と、有効なソリューションが見つかる可能性が高くなる可能性があることに気付きました。
だから、私は私の質問を言い換えると、多分私はより良い解決策を得るでしょう...ここに行きます:
.txt ファイルに多数の URL のリストがあり (Windows Vista 32 ビットを実行しています)、重複するドメイン (および各重複に対応する URL 全体) を削除し、各ドメインの最初の出現を残す必要があります。この特定のファイルには、次の形式で約 6,000,000 の URL があります (URL には明らかにスペースがありません。これだけ多くの「ライブ」URL を投稿するのに十分な投稿がここにないため、これを行う必要がありました。 ):
http://www.exampleurl.com/something.php http://exampleurl.com/somethingelse.htm http://exampleurl2.com/another-url http://www.exampleurl2.com/a-url.htm http://exampleurl2.com/yet-another-url.html http://exampleurl.com/ http://www.exampleurl3.com/here_is_a_url http://www.exampleurl5.com/something
解決策が何であれ、上記を入力として使用する出力ファイルは次のようになります。
http://www.exampleurl.com/something.php http://exampleurl2.com/another-url http://www.exampleurl3.com/here_is_a_url http://www.exampleurl5.com/something
重複するドメインがなくなり、最初に見つかったドメインが取り残されていることに気付きました。
誰かが私を助けてくれれば、それが正規表現を使っているのか、私が知らないプログラムを使っているのかに関係なく、それは素晴らしいことです.
私はこれを言いますが、私はWindows OS以外を使用した経験がないので、Windowsプログラム以外のものを伴うソリューションは、いわば少しの「ベビーステップ」が必要です(誰かがそうするのに十分親切であれば) )。