2

ドメインの URL のリストを生成したいのですが、自分でドメインをクロールしないことで帯域幅を節約したいと考えています。では、既存のクロールされたデータを使用する方法はありますか?

私が考えた 1 つの解決策は、Yahoo サイト検索を実行することです。これにより、最初の 1000 件の結果を TSV 形式でダウンロードできます。ただし、すべてのレコードを取得するには、検索結果をスクレイピングする必要があります。Google もサイト検索をサポートしていますが、データを簡単にダウンロードする方法は提供していません。

ほとんどの (すべてではないにしても) Web サイトで機能するより良い方法を考えられますか?

ありがとう、リチャード

4

3 に答える 3

3

このオンライン ツールを使用して、最大 500 個の URL のリストを無料でダウンロードできます。

XML サイトマップ ジェネレーター

...ツールがサイトをクロールした後、「テキスト リスト」を選択するだけです。

于 2009-08-23T04:29:55.130 に答える
1

一部のウェブマスターはサイトマップを提供していますが、これは基本的にドメイン上のすべての URL の XML リストです。ただし、クローリング以外に一般的な解決策はありません。クローラーを使用する場合は、robots.txt に従ってください。

于 2009-06-28T05:25:38.440 に答える
0

Seems there is no royal way to web crawling, so I will just stick to my current approach...

Also I found most search engines only expose the first 1000 results anyway.

于 2009-10-05T02:59:27.093 に答える