URLからwwwとセカンドレベルドメイン名を取り除くためのコード(javascriptが最適です)はどこにありますか?
例:
www.ynet.co.il -> ynet (stripped 'co.il' - two tokens) www.nike.com -> nike (stripped 'com' - one token)
等
次善の策として、セカンドレベルドメインの完全なリスト(できればCSVまたはその他の形式)も歓迎されます。
URLからwwwとセカンドレベルドメイン名を取り除くためのコード(javascriptが最適です)はどこにありますか?
例:
www.ynet.co.il -> ynet (stripped 'co.il' - two tokens) www.nike.com -> nike (stripped 'com' - one token)
等
次善の策として、セカンドレベルドメインの完全なリスト(できればCSVまたはその他の形式)も歓迎されます。
Javaを使用している場合は、Guavaがここで役立ちます。
InternetDomainName.topPrivateDomain()
と一緒に使用しpublicSuffix()
て、問題を解決できます。
Guava(およびMozilla / Firefox、Chrome、Opera)は、この機能にパブリックサフィックスリストを使用します(生データはここにあります)。
tld.jsは、そのデータも使用するJavaScriptライブラリです。
https://gist.github.com/2428561このようなものですか?Googleで「javascripturlパーサー」を検索します