問題タブ [public-suffix-list]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - パブリック サフィックス リスト C# パーサー
C#でパブリックサフィックスリスト(実際のドメインを取得)パーサーを持っている人はいますか?
code.google.com /p/domainname-parser/ (名前の p の前にスペースを削除) で利用できましたが、プロジェクト フォルダーとソースにアクセスできなくなったため、プロジェクトはおそらく Google コードから削除されました。
r - RのURLからルートドメインを返す
与えられたウェブサイトのアドレス、例えば
Rでルート ドメインを返すにはどうすればよいですか。
私の目的のために、ルートドメインを構造を持つように定義します
ここで、example_name は「www」を除外し、public_suffix は次のリストにあります。
https://publicsuffix.org/list/effective_tld_names.dat
これはまだ最良の正規表現ベースのソリューションですか:
https://stackoverflow.com/a/8498629/2109289
R次のようなパブリック サフィックス リストに基づいてルート ドメインを解析するものについてはどうでしょうか。
http://simonecarletti.com/code/publicsuffix/
編集済み:リチャードのコメントに基づいて追加情報を追加
を使用するXML::parseURIと、最初の「//」と「/」の間のものを返すようです。例えば
したがって、問題はR、URI からパブリック サフィックスを返すことができる関数を持つこと、またはパブリック サフィックス リストに次のアルゴリズムを実装することになります。
- ドメインをすべてのルールと照合し、一致するルールをメモします。
- 一致するルールがない場合、優先ルールは「*」です。
- 複数のルールが一致する場合、優勢なルールは例外ルールです。
- 一致する例外ルールがない場合、最も多くのラベルを持つルールが優先ルールになります。
- 優勢なルールが例外ルールである場合は、一番左のラベルを削除して変更します。
- パブリック サフィックスは、一般的なルールのラベル (ドットで結合) と直接一致するドメインからのラベルのセットです。
- 登録済みまたは登録可能なドメインは、パブリック サフィックスと 1 つの追加ラベルです。
java - Java api public-suffix-list が null ドメインを返す
Java API を使用して、指定された URL に基づいて 2 番目のドメイン名を抽出します。
https://github.com/whois-server-list/public-suffix-list
PUBLIC SUFFIX LISTMozillaの に基づいています。
以下のコードを指定します。
次の出力が得られました。
ほとんどのドメインでうまく機能しますが、 のs3.amazonaws.com場合は null を返します。ただし、同様のもののs4.amazonaws.com場合: 、正しい結果が得られます。問題は何ですか?
wordpress - public suffix list: wordpress.com がそこにリストされていないのはなぜですか?
これが少しオフトピックである場合は申し訳ありません。public suffix listguavaを内部的に使用するものを使用しています。あるのにないのはなぜですか?(そしてまた、他の多くの...)blogspot.comwordpress.cometsy.com
このリストの目的は、とが同じ人物によって所有されていないことを検出できるようにすることだと思いましたが、 と は同じ人物ihadanny.wordpress.comによって所有されています...highlyscalable.wordpress.comwww.outbrain.comtraffic.outbrain.com