0

ratemyprofessor.com から教授のレビューを収集するために、php パーサーをコーディングしようとしています。各教授にはページがあり、そこにはすべてのレビューが含まれています。各教授のサイトを解析し、コメントを txt ファイルに抽出したいと考えています。これは私がこれまでに持っているものですが、出力txtファイルが空のままであるため、実行すると正しく実行されません。問題は何ですか?

<?php     
set_time_limit(0);

$domain = "http://www.ratemyprofessors.com";
$content = "div id=commentsection";
$content_tag = "comment";
$output_file = "reviews.txt";
$max_urls_to_check = 400;
$rounds = 0;
$reviews_stack = array();
$max_size_domain_stack = 10000;
$checked_domains = array();


while ($domain != "" && $rounds < $max_urls_to_check) {
    $doc = new DOMDocument();
    @$doc->loadHTMLFile($domain);
    $found = false;


    foreach($doc->getElementsByTagName($content_tag) as $tag) {
        if (strpos($tag->nodeValue, $content)) {
            $found = true;
            break;
        }
    }

    $checked_domains[$domain] = $found;
    foreach($doc->getElementsByTagName('a') as $link) {
        $href = $link->getAttribute('href');
        if (strpos($href, 'http://') !== false && strpos($href, $domain) === false) {
            $href_array = explode("/", $href);

            if (count($domain_stack) < $max_size_domain_stack &&
                $checked_domains["http://".$href_array[2]] === null) {
                array_push($domain_stack, "http://".$href_array[2]);
            }
        };
    }


    $domain_stack = array_unique($domain_stack);
    $domain = $domain_stack[0];
    unset($domain_stack[0]);
    $domain_stack = array_values($domain_stack);
    $rounds++;
}

$found_domains = "";
foreach ($checked_domains as $key => $value) {
    if ($value) {
        $found_domains .= $key."\n";
    }
}


file_put_contents($output_file, $found_domains); 
?>
4

1 に答える 1

0

これは私がこれまでに持っているものですが、出力txtファイルが空のままであるため、実行すると正しく実行されません。何が問題になる可能性がありますか?

配列変数の初期化が不足しているため、空の出力が得られます。

  1. 主要部分。変数の初期化を追加します。

    $domain_stack = array(); // before while ($domain != ...... )
    
  2. 追加。その他の警告と通知を修正します。

    // change this
    $checked_domains["http://".$href_array[2]] === null
    
    // into
    
    !isset($checked_domains["http://".$href_array[2]])
    
    // another line
    // check if key exists
    if (isset($domain_stack[0]))  {
      $domain = $domain_stack[0];
      unset($domain_stack[0]);
    }
    
于 2012-12-17T10:55:24.043 に答える