websiteoutlook.com のような Web ロボットを作成する方法はありますか? インターネットで URL のみを検索するものが必要です...リンクや説明などは必要ありません。
技術的になりすぎずにこれを行うための最良の方法は何ですか? Google から URL を取得する PHP スクリプトを実行する cronjob でさえあると思いますが、もっと良い方法はありますか?
簡単な例または詳細情報へのリンクをいただければ幸いです。
websiteoutlook.com のような Web ロボットを作成する方法はありますか? インターネットで URL のみを検索するものが必要です...リンクや説明などは必要ありません。
技術的になりすぎずにこれを行うための最良の方法は何ですか? Google から URL を取得する PHP スクリプトを実行する cronjob でさえあると思いますが、もっと良い方法はありますか?
簡単な例または詳細情報へのリンクをいただければ幸いです。
には、約 400 万の一意の URL がありますDMOZ.org
。1 秒あたり 1 ページを超えない頻度でカタログをクロールすることが許可されています。クローラーとして、HTTrack のようなソフトウェアをダウンロードするサイトを使用できます (ルールに準拠するオプションをサポートしていrobots.txt
ます)。あとは、ダウンロードしたページの URL を解析するだけです (その後、サイトの属性を適切に指定する必要があります)。
ご指摘のサイトをざっと見たところ、URL をクロールするのではなく、1 つのドメインの情報を取得しているようです。
とにかく、キューから URL を取得し、ページのコンテンツを取得し、その中の URL を解析してキューに追加するスクリプトを作成します。次に、開始 URL をキューに追加し、スクリプトを crontab として実行します。