1

私は自分の Web サイトでスクリプトを作成していますが、これを最小限のコーディングでうまく機能させる方法に少し混乱しています。

基本的に必要なのは、たとえば domain.com などの URL を入力できるようにすることだけです。そのホームページをスキャンして、自分のドメインを指すリンクを探し、rel="nofollow" が割り当てられているかどうかを確認し、true を返す必要があります。リンクがある場合は rel="nofollow" なし、リンクがない場合は false、または rel="nofollow" が含まれるリンク。

これについてどうするか、またはどこから始めますか。

スパイダーを作成する方法をグーグルで検索しましたが、作成しようとしている基本的なスクリプトの情報が非常に多く、複雑です!

4

2 に答える 2

1

あなたが求めるものは、あなたが思っているほど単純ではありません。これを適切に行うには、 などの DOM パーサーを使用する必要がありますDOMDocument

http://www.php.net/manual/en/class.domdocument.php

そのloadHTML()メソッドを使用して、スキャンする Web ページを解析できます。そこから、さまざまな機能を使用して、探している特定のリンクを見つけ、その属性をチェックして、URL が正しいこと、およびrel="nofollow"そこにあることを確認できます。

最後に、これは単に URL の文字列検索よりもはるかに簡単であることを保証します。盲目的な検索の道をたどると、不正確な結果につながり、思っているよりもはるかに手間がかかります。

于 2012-05-06T16:14:46.827 に答える
0

http://simplehtmldom.sourceforge.net/を見てください。

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';
于 2012-05-06T16:15:41.353 に答える