2

websiteoutlook.com のような Web ロボットを作成する方法はありますか? インターネットで URL のみを検索するものが必要です...リンクや説明などは必要ありません。

技術的になりすぎずにこれを行うための最良の方法は何ですか? Google から URL を取得する PHP スクリプトを実行する cronjob でさえあると思いますが、もっと良い方法はありますか?

簡単な例または詳細情報へのリンクをいただければ幸いです。

4

2 に答える 2

0

には、約 400 万の一意の URL がありますDMOZ.org。1 秒あたり 1 ページを超えない頻度でカタログをクロールすることが許可されています。クローラーとして、HTTrack のようなソフトウェアをダウンロードするサイトを使用できます (ルールに準拠するオプションをサポートしていrobots.txtます)。あとは、ダウンロードしたページの URL を解析するだけです (その後、サイトの属性を適切に指定する必要があります)。

于 2010-03-22T04:08:37.567 に答える
0

ご指摘のサイトをざっと見たところ、URL をクロールするのではなく、1 つのドメインの情報を取得しているようです。

とにかく、キューから URL を取得し、ページのコンテンツを取得し、その中の URL を解析してキューに追加するスクリプトを作成します。次に、開始 URL をキューに追加し、スクリプトを crontab として実行します。

于 2010-03-21T23:57:00.180 に答える