0

URL を収集するための最良の方法を見つけようとしています。独自の小さなクローラーを作成することもできますが、サーバーがインターネット全体をクロールするには数十年かかり、必要な帯域幅が膨大になります。もう 1 つの考えは、Google の Search API または Yahoo の Search API を使用することですが、結果を得る前に検索を実行する必要があるため、これは実際には優れたソリューションではありません。

その他の考えとしては、DNS サーバーに問い合わせて URL のリストを要求することも考えられますが、DNS サーバーは私の要求を制限/抑制したり、まとめて禁止したりすることさえできます。現時点では、DNS サーバーに問い合わせる知識がかなり限られているため、これが最善の方法であるかどうかはわかりません。

URL の膨大なリストが必要なだけですが、将来的にレンガの壁にぶつかることなくこのリストを作成したいと考えています。何かご意見は?

私はPythonを学ぶためにこのプロジェクトを始めていますが、それは質問とは何の関係もありません.

4

4 に答える 4

2
$ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
于 2009-11-24T02:35:07.940 に答える
0

どれくらいの大きさですか?開始するのに適した場所はhttp://www.alexa.com/topsitesです。彼らは(ランキングメカニズムによって)上位1,000,000サイトのダウンロードを提供します。link: url次に、Googleにアクセスして、リスト内の各URLのクエリ結果を取得することにより、このリストを展開できます。

于 2009-11-24T02:35:42.293 に答える
0

現代の用語は現在URIとURNであり、URLは縮小/時代遅れです。1つのファイルに多くのアドレスを含むサイトマップファイルをスキャンし、古典的なテキストスパイダー、ワンダー、ブローカー、ボット、およびURI正規表現を定義するRFC 3305 (付録b。p 50)を調べます。

于 2009-11-24T02:46:08.463 に答える
0

Verisignで登録すると、.com および .net ゾーン ファイル全体にアクセスできます。

私は使用条件の細則を読んでいませんし、(もしあれば) いくらかかるかも知りません。ただし、それでは、URL として使用するアクティブなドメインの膨大なリストが得られます。

于 2009-11-24T03:06:56.957 に答える