4

有名な会社のURL(例: http: //mcdonalds.com/)を前提として、会社名(この場合は「マクドナルド」)を自動的かつ確実に見つけるにはどうすればよいでしょうか。

ありがとう

編集:誰かがこの質問を閉じることに投票したので、動機を説明する必要があるかもしれません。会社のURLのリストがたくさんあり、Googleマップを使用して各会社のデータを検索したいと思います。また、会社名でGoogleマップを検索すると、URLよりもはるかにうまく機能します。

「http」と「com」を削除すると、多くの場合、特に有名な企業では機能しますが、すべてではありません。whoisレコードはあまり役に立たなかったことがわかりました。

URLに一致するある種の公開データベースがあることを望んでいましたが、今のところ出会っていません。

4

7 に答える 7

2

独自のルックアップテーブルを作成する必要があります。最も正確なデータを取得するには、URLのhtmlからこの情報を解析する必要があります。たとえば、Htmlページのタイトルを取得するか、著作権メッセージを探しますか?

于 2009-11-10T12:53:04.803 に答える
1

おそらく彼らはそれを<title/>要素に持つでしょう。これを解析して、Webサイトのドメインと比較します。かなりの重複がある場合、それはあなたの一致です。そうでない場合は、タイトルでいくつかのヒューリスティックを試してください(名前が以前のすべてである>>など)。

大企業の場合は、ドメインのNICエントリ(別名Whois)を確認することもできます。

于 2009-11-10T12:54:15.220 に答える
1

cURL と DOMDocument を使用してみてください。

<?php

    $ch = curl_init();
    $site = "http://mcdonalds.com/";
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
    curl_setopt($ch, CURLOPT_URL, $site);
    $result= curl_exec($ch);
    curl_close($ch);        

    $dom = new DOMDocument();
    @$dom->loadHTML($result);
    $title = $dom->getElementsByTagName("title");
    echo $title->item(0)->nodeValue;
    
?>

メタタグを見てください<meta name="author" content="McDonald's Corporation" >

于 2009-11-10T13:05:42.127 に答える
1

Whoisデータベースが役立つかもしれませんが、より多くの労力をかけて処理しなければならない特殊なケースが常に存在します。

于 2009-11-10T12:56:51.200 に答える
1

正確に言うと、Amazon Mechanical turk と言うでしょう。

于 2009-11-10T12:59:30.523 に答える
0

whois情報を使用できます。それをきれいな方法で行うためのライブラリが必要です。使用するテクノロジーの種類については言及していませんでした...

于 2009-11-10T12:56:23.830 に答える