私はクローラー プロジェクトに取り組んでおり、あなたの助けが必要です。これは私の最初のプロジェクトです。タスクは、「http://justdial.com」からデータを取得することです。たとえば、都市名 (バンガロール)、カテゴリ (ホテル)、ホテル名、住所、電話番号を取得したいと考えています。
これからアドレスを取得したように、「id」からタグの内容を取得するコードを作成しました。
<?php
$url="http://www.justdial.com/Bangalore/hotels";
$original_file = file_get_contents("$url");
$stripped_file = strip_tags($original_file, "<div>");
$newlines="'<div class=\"logoDesc\">(.*?)</div>'si";
$newlines=preg_replace('#<div(?:[^>]*)>.</div>#u','',$newlines);
preg_match_all("$newlines", $stripped_file, $matches);
//DEBUGGING
//$matches[0] now contains the complete A tags; ex: <a href="link">text</a>
//$matches[1] now contains only the HREFs in the A tags; ex: link
header("Content-type: text/plain"); //Set the content type to plain text so the print below is easy to read!
$path= ($matches);
print_r($path); //View the array to see if it worked
?>
問題は、コンテンツからタグを分離してデータベースに保存したいということです。そしてデータベースからエクセルシートへ。私を助けてください。