url - URLからサブドメインを取得する

Question

URLからサブドメインを取得することは、最初は簡単に聞こえます。

http://www.domain.example

最初の期間をスキャンしてから、「http：//」の後に来るものを返します...

その後、あなたは覚えています

http://super.duper.domain.example

おー。それで、あなたは、大丈夫、最後の期間を見つけて、一言戻って、前にすべてを手に入れようと思います！

その後、あなたは覚えています

http://super.duper.domain.co.uk

そして、あなたは正方形に戻っています。すべてのTLDのリストを保存する以外に、すばらしいアイデアはありますか？

score 75 · Accepted Answer

すべての TLD のリストを保存する以外に、何か素晴らしいアイデアはありますか?

いいえ、各 TLD は、サブドメイン、第 2 レベルドメインなどとしてカウントされるものが異なるためです。

トップレベルドメイン、セカンドレベルドメイン、およびサブドメインがあることに注意してください。技術的に言えば、TLD を除くすべてがサブドメインです。

domain.com.uk の例では、「domain」はサブドメイン、「com」は第 2 レベルのドメイン、「uk」は TLD です。

そのため、問題は一見したよりも複雑なままであり、各 TLD がどのように管理されているかによって異なります。特定のパーティショニングを含むすべての TLD のデータベースと、第 2 レベルドメインおよびサブドメインとしてカウントされるものが必要になります。ただし、TLD の数はそれほど多くないため、リストはかなり管理しやすいものですが、すべての情報を収集するのは簡単ではありません。すでにそのようなリストが利用可能である可能性があります。

http://publicsuffix.org/はそのようなリストの 1 つで、検索に適したリスト内のすべての一般的なサフィックス (.com、.co.uk など) のようです。解析するのは簡単ではありませんが、少なくともリストを維持する必要はありません。

「パブリックサフィックス」は、インターネットユーザーが直接名前を登録できるサフィックスです。パブリックサフィックスの例としては、「.com」、「.co.uk」、「pvt.k12.wy.us」などがあります。パブリックサフィックスリストは、既知のすべてのパブリックサフィックスのリストです。

Public Suffix List は、Mozilla Foundation のイニシアチブです。どのソフトウェアでも使用できますが、もともとはブラウザメーカーのニーズを満たすために作成されました。たとえば、ブラウザは次のことができます。

高レベルのドメイン名サフィックスにプライバシーを侵害する「スーパークッキー」が設定されないようにする

ユーザーインターフェイスでドメイン名の最も重要な部分を強調表示する

履歴エントリをサイトごとに正確に並べ替える

リストを見ると、些細な問題ではないことがわかります。これを達成するための唯一の正しい方法はリストだと思います...

score 25 · Accepted Answer

Adam が言うように、それは簡単なことではなく、現在のところ唯一の実用的な方法はリストを使用することです。

それでも例外があります。たとえば、.ukそのレベルですぐに有効になる少数のドメインがにない.co.ukため、それらを例外として追加する必要があります。

これは現在主流のブラウザがこれを行う方法です -example.co.ukが Cookie を設定できないことを確認する必要が.co.ukあります.co.uk。

良いニュースは、既にhttp://publicsuffix.org/で利用可能なリストがあることです。

IETFでは、 TLD がドメイン構造がどのように見えるかを宣言できるようにするための何らかの標準を作成する作業もあります。.uk.comこれは、パブリックサフィックスであるかのように操作されますが、.comレジストリによって販売されていないのようなものによって少し複雑になります。

score 22 · Accepted Answer

Publicsuffix.org がその方法のようです。publicsuffix データファイルファイルの内容を簡単に解析するための実装がたくさんあります。

Perl:ドメイン::PublicSuffix
Java: http://sourceforge.net/projects/publicsuffix/
PHP: php ドメインパーサー
C# / .NET: https://github.com/danesparza/domainname-parser
Python: http://pypi.python.org/pypi/publicsuffix
Ruby: domainatrix、public_suffix

score 9 · Accepted Answer

Adam と John が既に述べたように、 publicsuffix.orgが正しい方法です。ただし、何らかの理由でこのアプローチを使用できない場合は、すべてのドメインの 99% で機能するという仮定に基づくヒューリスティックを次に示します。

(すべてではなくほぼすべての)「実際の」ドメインをサブドメインおよび TLD から区別する 1 つのプロパティがあり、それが DNS の MX レコードです。これを検索するアルゴリズムを作成できます。ホスト名の一部を 1 つずつ削除し、MX レコードが見つかるまで DNS にクエリを実行します。例：

super.duper.domain.co.uk => no MX record, proceed
duper.domain.co.uk       => no MX record, proceed
domain.co.uk             => MX record found! assume that's the domain

php での例を次に示します。

function getDomainWithMX($url) {
    //parse hostname from URL 
    //http://www.example.co.uk/index.php => www.example.co.uk
    $urlParts = parse_url($url);
    if ($urlParts === false || empty($urlParts["host"])) 
        throw new InvalidArgumentException("Malformed URL");

    //find first partial name with MX record
    $hostnameParts = explode(".", $urlParts["host"]);
    do {
        $hostname = implode(".", $hostnameParts);
        if (checkdnsrr($hostname, "MX")) return $hostname;
    } while (array_shift($hostnameParts) !== null);

    throw new DomainException("No MX record found");
}

score 2 · Accepted Answer

C ライブラリ (Python でのデータテーブル生成を使用) については、http://code.google.com/p/domain-registry-provider/を作成しました。これは、高速でスペース効率も優れています。

ライブラリは、データテーブルに ~30kB、C コードに ~10kB を使用します。テーブルはコンパイル時に構築されるため、起動時のオーバーヘッドはありません。詳細については、 http://code.google.com/p/domain-registry-provider/wiki/DesignDocを参照してください。

テーブル生成コード (Python) をよりよく理解するには、http ://code.google.com/p/domain-registry-provider/source/browse/trunk/src/registry_tables_generator/registry_tables_generator.py から始めてください。

C API について理解を深めるには、http ://code.google.com/p/domain-registry-provider/source/browse/trunk/src/domain_registry/domain_registry.h を参照してください。

score 2 · Accepted Answer

既に述べたように、 Public Suffix Listはドメインを正しく解析する 1 つの方法にすぎません。PHP の場合、TLDExtractを試すことができます。サンプルコードは次のとおりです。

$extract = new LayerShifter\TLDExtract\Extract();

$result = $extract->parse('super.duper.domain.co.uk');
$result->getSubdomain(); // will return (string) 'super.duper'
$result->getSubdomains(); // will return (array) ['super', 'duper']
$result->getHostname(); // will return (string) 'domain'
$result->getSuffix(); // will return (string) 'co.uk'

score 1 · Accepted Answer

publicsuffix.orgからの情報に基づいて、clojureでこのプログラムを作成しました。

https://github.com/isaksky/url_dom

例えば：

(parse "sub1.sub2.domain.co.uk") 
;=> {:public-suffix "co.uk", :domain "domain.co.uk", :rule-used "*.uk"}

score 1 · Accepted Answer

シェルとbashのバージョン

Adam Davis の正解に加えて、この操作に対する独自のソリューションを投稿したいと思います。

リストは大きなものなので、さまざまなテスト済みソリューションのうちの 3 つがあります...

まず、その方法で TLD リストを準備します。

wget -O - https://publicsuffix.org/list/public_suffix_list.dat |
    grep '^[^/]' |
    tac > tld-list.txt

注:の前tacに確実にテストするためにリストを反転します。.co.uk .uk

posixシェルバージョン

splitDom() {
    local tld
    while read tld;do
        [ -z "${1##*.$tld}" ] &&
            printf "%s : %s\n" $tld ${1%.$tld} && return
    done <tld-list.txt
}

テスト:

splitDom super.duper.domain.co.uk
co.uk : super.duper.domain

splitDom super.duper.domain.com
com : super.duper.domain

バッシュのバージョン

フォークを減らす (構文を避けるmyvar=$(function..)) ために、bash 関数では出力を stdout にダンプする代わりに変数を設定することを好みます。

tlds=($(<tld-list.txt))
splitDom() {
    local tld
    local -n result=${2:-domsplit}
    for tld in ${tlds[@]};do
        [ -z "${1##*.$tld}" ] &&
            result=($tld ${1%.$tld}) && return
    done
}

それで：

splitDom super.duper.domain.co.uk myvar
declare -p myvar
declare -a myvar=([0]="co.uk" [1]="super.duper.domain")

splitDom super.duper.domain.com
declare -p domsplit
declare -a domsplit=([0]="com" [1]="super.duper.domain")

より速いbashバージョン:

同じ準備で、次のようになります。

declare -A TLDS='()'
while read tld ;do
    if [ "${tld##*.}" = "$tld" ];then
        TLDS[${tld##*.}]+="$tld"
      else
        TLDS[${tld##*.}]+="$tld|"
    fi
done <tld-list.txt

このステップはかなり遅くなりますが、splitDom関数は非常に速くなります:

shopt -s extglob 
splitDom() {
    local domsub=${1%%.*(${TLDS[${1##*.}]%\|})}
    local -n result=${2:-domsplit}
    result=(${1#$domsub.} $domsub)
}

私のラズベリーパイでのテスト:

両方のbashスクリプトを次のようにテストしました。

for dom in dom.sub.example.{,{co,adm,com}.}{com,ac,de,uk};do
    splitDom $dom myvar
    printf "%-40s %-12s %s\n" $dom ${myvar[@]}
done

posix版は詳細な forループでテストしましたが、

すべてのテストスクリプトは同じ出力を生成します。

dom.sub.example.com                      com          dom.sub.example
dom.sub.example.ac                       ac           dom.sub.example
dom.sub.example.de                       de           dom.sub.example
dom.sub.example.uk                       uk           dom.sub.example
dom.sub.example.co.com                   co.com       dom.sub.example
dom.sub.example.co.ac                    ac           dom.sub.example.co
dom.sub.example.co.de                    de           dom.sub.example.co
dom.sub.example.co.uk                    co.uk        dom.sub.example
dom.sub.example.adm.com                  com          dom.sub.example.adm
dom.sub.example.adm.ac                   ac           dom.sub.example.adm
dom.sub.example.adm.de                   de           dom.sub.example.adm
dom.sub.example.adm.uk                   uk           dom.sub.example.adm
dom.sub.example.com.com                  com          dom.sub.example.com
dom.sub.example.com.ac                   com.ac       dom.sub.example
dom.sub.example.com.de                   com.de       dom.sub.example
dom.sub.example.com.uk                   uk           dom.sub.example.com

ファイルの読み取りとsplitDomループを含む完全なスクリプトは、posix バージョンで ~2m、配列に基づく最初の bash スクリプトでは ~1m29s かかります$tldsが、連想配列~22sに基づく最後の bash スクリプトでは ~1m29s かかります。$TLDS

                Posix version     $tldS (array)      $TLDS (associative array)
File read   :       0.04164          0.55507           18.65262
Split loop  :     114.34360         88.33438            3.38366
Total       :     114.34360         88.88945           22.03628

したがって、連想配列の作成がより強力な仕事である場合、splitDom関数ははるかに高速になります!

score 0 · Accepted Answer

echo tld('http://www.example.co.uk/test?123'); // co.uk

/**
 * http://publicsuffix.org/
 * http://www.alandix.com/blog/code/public-suffix/
 * http://tobyinkster.co.uk/blog/2007/07/19/php-domain-class/
 */
function tld($url_or_domain = null)
{
    $domain = $url_or_domain ?: $_SERVER['HTTP_HOST'];
    preg_match('/^[a-z]+:\/\//i', $domain) and 
        $domain = parse_url($domain, PHP_URL_HOST);
    $domain = mb_strtolower($domain, 'UTF-8');
    if (strpos($domain, '.') === false) return null;

    $url = 'http://mxr.mozilla.org/mozilla-central/source/netwerk/dns/effective_tld_names.dat?raw=1';

    if (($rules = file($url)) !== false)
    {
        $rules = array_filter(array_map('trim', $rules));
        array_walk($rules, function($v, $k) use(&$rules) { 
            if (strpos($v, '//') !== false) unset($rules[$k]);
        });

        $segments = '';
        foreach (array_reverse(explode('.', $domain)) as $s)
        {
            $wildcard = rtrim('*.'.$segments, '.');
            $segments = rtrim($s.'.'.$segments, '.');

            if (in_array('!'.$segments, $rules))
            {
                $tld = substr($wildcard, 2);
                break;
            }
            elseif (in_array($wildcard, $rules) or 
                    in_array($segments, $rules))
            {
                $tld = $segments;
            }
        }

        if (isset($tld)) return $tld;
    }

    return false;
}

score 0 · Accepted Answer

正確には解決していませんが、ドメインを 1 つずつフェッチして応答を確認することで、有用な答えが得られる可能性があります。、次に「http://domain.co.uk」。エラー以外の応答が得られた場合は、ドメインを取得しており、残りはサブドメインです。

時々、試してみる必要があります:)

編集：

Tom Leys はコメントで、一部のドメインは www サブドメインのみに設定されているため、上記のテストで間違った答えが得られると指摘しています。いい視点ね！「 http://www」と「http://」で各部分をチェックし、ドメイン名のそのセクションのヒットとしていずれかへのヒットをカウントするのが最善の方法でしょうか? 「web.domain.com」などの「代替」の配置がまだいくつか欠けていますが、しばらくの間、それらのいずれかに遭遇していません:)

score 0 · Accepted Answer

URIBuilder を使用して、URIBUilder.host 属性を取得し、「.」の配列に分割します。これで、ドメインが分割されたアレイができました。

score 0 · Accepted Answer

この lib tld.js: JavaScript API を使用して、複雑なドメイン名、サブドメイン、および URI を処理できます。

tldjs.getDomain('mail.google.co.uk');
// -> 'google.co.uk'

ブラウザでルートドメインを取得している場合。この lib AngusFu/browser-root-domainを使用できます。

var KEY = '__rT_dM__' + (+new Date());
var R = new RegExp('(^|;)\\s*' + KEY + '=1');
var Y1970 = (new Date(0)).toUTCString();

module.exports = function getRootDomain() {
  var domain = document.domain || location.hostname;
  var list = domain.split('.');
  var len = list.length;
  var temp = '';
  var temp2 = '';

  while (len--) {
    temp = list.slice(len).join('.');
    temp2 = KEY + '=1;domain=.' + temp;

    // try to set cookie
    document.cookie = temp2;

    if (R.test(document.cookie)) {
      // clear
      document.cookie = temp2 + ';expires=' + Y1970;
      return temp;
    }
  }
};

クッキーの使用はトリッキーです。

score 0 · Accepted Answer

URL の任意のリストからサブドメインやドメインを抽出する場合は、この python スクリプトが役立つ場合があります。ただし、完璧ではないので注意してください。これは一般的に解決するのが難しい問題であり、予期しているドメインのホワイトリストがある場合は非常に役立ちます。

publicsuffix.org からトップレベルドメインを取得する

インポートリクエスト

url = 'https://publicsuffix.org/list/public_suffix_list.dat'
ページ = requests.get(url)

ドメイン = []
page.text.splitlines() の行:
    if line.startswith('//'):
        継続する
    そうしないと：
        ドメイン = line.strip()
        ドメインの場合:
            domain.append(ドメイン)

domain = [d[2:] if d.startswith('*.') else d for d in domain]
print('見つかった {} ドメイン'.format(len(ドメイン)))

正規表現を構築する

再輸入

_regex = ''
ドメイン内のドメインの場合:
    _regex += r'{}|'.format(domain.replace('.', '\.'))

subdomain_regex = r'/([^/]*)\.[^/.]+\.({})/.*$'.format(_regex)
domain_regex = r'([^/.]+\.({}))/.*$'.format(_regex)

URL のリストで正規表現を使用する

FILE_NAME = '' # ここに CSV ファイル名を入れます
URL_COLNAME = '' # ここに URL 列名を入れます

パンダを pd としてインポート

df = pd.read_csv(ファイル名)
urls = df[URL_COLNAME].astype(str) + '/' # 注: 正規表現を支援するハックとして / を追加

df['sub_domain_extracted'] = urls.str.extract(pat=subdomain_regex, expand=True)[0]
df['domain_extracted'] = urls.str.extract(pat=domain_regex, expand=True)[0]

df.to_csv('extracted_domains.csv', index=False)

score -1 · Accepted Answer

一般的なサフィックス (.co.uk、.com など) のリストを http:// と共に削除すると、" http://sub. domain.suffix "、または少なくともそれは私がおそらく行うことです.

最大の問題は、可能なサフィックスのリストです。結局のところ、たくさんあります。

score -3 · Accepted Answer

publicsuffix.org リストをざっと見てみると、最後のセグメントが 2 文字の長さのドメインから最後の 3 つのセグメント (ここでの「セグメント」とは 2 つのドットの間のセクションを意味します) を削除することで、妥当な概算を行うことができるようです。それは国コードであり、さらに細分化されることを前提としています。最後のセグメントが「us」で、最後から 2 番目のセグメントも 2 文字の場合は、最後の 4 つのセグメントを削除します。それ以外の場合は、最後の 2 つのセグメントを削除します。例えば：

http://www.domain.example

「example」は 2 文字ではないため、「domain.example」を削除し、「www」を残します。

http://super.duper.domain.example

「example」は 2 文字ではないため、「domain.example」を削除し、「super.duper」を残します

http://super.duper.domain.co.uk

「uk」は 2 文字 (ただし「us」ではない) であるため、「domain.co.uk」を削除し、「super.duper」を残します。

http://foo.pvt.k12.wy.us

"us" は 2 文字で "us" で、さらに "wy" も 2 文字なので、"pvt.k12.wy.us" を削除して "foo" を残します。

これは、これまでの回答で見たすべての例で機能しますが、妥当な概算にすぎないことに注意してください。完全に正しいわけではありませんが、参照用に実際のリストを作成/取得せずに取得できる可能性が最も高いと思われます。

url - URLからサブドメインを取得する

18 に答える 18

シェルとbashのバージョン

まず、その方法で TLD リストを準備します。

posixシェル バージョン

バッシュのバージョン

より速いbashバージョン:

私のラズベリーパイでのテスト:

Related

Reference

posixシェルバージョン