ドメインの URL のリストを生成したいのですが、自分でドメインをクロールしないことで帯域幅を節約したいと考えています。では、既存のクロールされたデータを使用する方法はありますか?
私が考えた 1 つの解決策は、Yahoo サイト検索を実行することです。これにより、最初の 1000 件の結果を TSV 形式でダウンロードできます。ただし、すべてのレコードを取得するには、検索結果をスクレイピングする必要があります。Google もサイト検索をサポートしていますが、データを簡単にダウンロードする方法は提供していません。
ほとんどの (すべてではないにしても) Web サイトで機能するより良い方法を考えられますか?
ありがとう、リチャード