2

私は、C# と .NET フレームワークだけで、学校用のインターネット検索エンジンを作ろうとしています。インデックスしているページの HTML コードをダウンロードする必要があります。

あとは、有効な URL のリストを取得するだけです。

私は有効な URL のデータベースを持っていないので、文字列を成長させる試行錯誤のアルゴリズムを作成しました。

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

次に、.com、.net、またはその他と連結しようとします。これはあまりにも非効率です。

有効な URL を持つデータベースが必要です。どこで入手できるか知っていますか?

それらをDNSから直接取得する方法がわかりません-これは可能ですか?

4

1 に答える 1

2

あなた自身のものを構築することができます。ほとんどの検索エンジンはページをクロールし、他のページへのリンクをたどります。

既知のリストから始めます (非常に大きくする必要はありません)。

  1. リスト内のページにアクセスする
  2. それらのページのリンクを見つける
  3. それらのリンクをリストに追加します
  4. 1に行く

DNSの使用に関しては; URL を照会するようには設計されておらず、ホスト名のみを照会するように設計されています。また、私の知る限り、サーバーを自分で管理しない限り、DNS サーバーからすべてのホスト名のリストを取得することはできません。

于 2013-03-19T02:44:24.657 に答える