次のようにクリーンアップする必要があるドメインの巨大なスプレッドシートがあります。
- すべてを削除します
http://
(すべてを単純に置き換えます-"http://"を ""に置き換えます) - いずれかを削除します
www.
(単純にすべてを置き換えます-「www。」を「」に置き換えます) - サブドメインを削除します(URLからサブドメインだけでなく、実際の行を完全に削除します)
- ドメイン拡張子の後にあるものをすべて削除します(つまり、次の
website.com/blah/blahbah/
ようになりますwebsite.com
(単純に、すべてを-"/*"
に置き換えてから、すべてを""
に置き換えます)"/"
""
ですから、私に残されているのは、のようなクリーンなドメインのスプレッドシートです"website.com"
。
(上記のように)1、2、4を並べ替えたと思いますが、3で本当に苦労しています。
何か案は?regexp / vbaを使用してこれを実行し、実際に行を完全に削除できますか?
サンプルデータ:
http://www.scholastic.com/kids/stacks/games/
http://imgworld.teamworkonline.com/
http://topfreegraphics.com/
http://www.workcircle.co.uk/
http:// www.healthycanadians.gc.ca/index-eng.php
http://gsociology.icaap.org/methods/soft.html
投稿1、2、4は私に次のことを残します:
scholastic.com
imgworld.teamworkonline.com
topfreegraphics.com
workcircle.co.uk
healthcanadians.gc.ca
gsociology.icaap.org
行を削除するだけで、完全に削除する必要があるのは厄介なサブドメインです。2 x "。"を検索するだけでは不十分であることに気付きました。これは、明らかに多くのドメイン拡張機能(つまり.co.uk
)に含まれているためです。
助けていただければ幸いです。