この質問をするスレッドが無数にあることは知っていますが、これを支援できるスレッドを見つけることができませんでした。
私は基本的に約10,000,000のURLのリストを解析しようとしています。それらが次の基準に従って有効であることを確認してから、ルートドメインのURLを取得します。このリストには、次のようなもの(および予想されるフォーマットされたURL)を含む、想像できるほぼすべてのものが含まれています。
biy.ly/test [VALID] [return - bit.ly]
example.com/apples?test=1&id=4 [VALID] [return - example.com]
host101.wow404.apples.test.com/cert/blah [VALID] [return - test.com]
101.121.44.xxx [**inVALID**] [return false]
localhost/noway [**inVALID**] [return false]
www.awesome.com [VALID] [return - awesome.com]
i am so awesome [**inVALID**] [return false]
http://404.mynewsite.com/visits/page/view/1/ [VALID] [return - mynewsite.com]
www1.151.com/searchresults [VALID] [return - 151.com]
誰かがこれについて何か提案がありますか?