java - JavaのURLクラスのgetHostメソッドとgetAuthorityメソッドの違いは何ですか？

Question

次のようなさまざまな形式の一連の文字列（URL）があります。

http://domain name.anything/anypath
https://dmain name.anything/anypath
http://www.domain name.anything/anypath
https://www.dmain name.anything/anypath

これらの文字列はCSVファイルに保存されます。ドメイン名のみを取得するには、すべてのURLを解析する必要がありますdomain name.anything。つまり、最初の後と最初.の前の部分/。

メソッドを使用して文字列を分離し、split各文字列をURLに変換してから、toAuthority関数を使用してドメイン名のみを取得しました。問題は、私のために同じ仕事をしているということです。彼らにはtoAuthority私が望まないものが含まれています。ただし、Oracleのチュートリアルでは、ドメイン名を。なしで返すことになっているようです。toHostwww.toAuthoritywww.

www.URLなしでドメイン名部分のみを抽出するにはどうすればよいですか？

score 14 · Accepted Answer

URL クラスの getHost メソッドと getAuthority メソッドの違いは何ですか?

これを本当に理解するには、URI 仕様 - RFC 2396を読む必要があります。

簡単に言えば、オーソリティコンポーネントはホストコンポーネントと、オプションのポート番号、ユーザー名、およびパスワードで構成されているということです。使用される URL スキームによって異なります。

「www」なしでドメイン名部分のみを抽出するにはどうすればよいですか。URLの??

を呼び出しgetHost()、文字列で始まるかどうかをテストし、そうで"www."あれば削除します。

しかし、そのようなことを始める前に、「www.」を削除することを理解する必要があります。は、機能しない URL、または元の URL が解決するものとは異なるドキュメントまたはサービスに解決される URL を提供する場合があります。問題のサイトがどのように構成されているかについて詳細な知識がない限り、URL をむやみに整理するのは悪い考えです。

「foo.com」と「www.foo.com」が同じ場所であるという慣習は単なる慣習であり、多くのサイトでは実装されていません。「www.」を削除します。解決可能な URL を解決できない URL に変えてしまう可能性があるため、これは悪い考えです。

score 2 · Accepted Answer

google guava を使用して、ホスト名からドメイン名を取得できます。

InternetDomainName.from(hostname).topPrivateDomain().toString()

score 1 · Accepted Answer

有効な第 2 レベルドメインを抽出しようとしているようです。Stephen が説明しているように、最初にホスト名を取得し、最後から 2 番目のピリオドで始まる部分文字列を抽出することで、.com、.net、.org などの少数のパブリックサフィックスを簡単に抽出できます。ただし、co.uk などの多くのパブリックサフィックスは、この単純なアルゴリズムを破ります。パブリックサフィックスの完全なリストは、http: //publicsuffix.org/で確認できます。ルックアップテーブルでパブリックサフィックスを使用して、有効な第 2 レベルドメインを取得できます。

java - JavaのURLクラスのgetHostメソッドとgetAuthorityメソッドの違いは何ですか？

3 に答える 3

Related

Reference