6

多数のスレッドを含むフォーラム サイトがある場合、検索エンジン ボットは毎回サイト全体をクロールしますか? サイトに 1,000,000 を超えるスレッドがあるとします。ボットがサイトをクロールするたびに、スレッドもクロールされますか? またはどのように機能しますか?自分のウェブサイトをインデックスに登録したいのですが、ボットに自分のウェブサイトを殺してほしくありません! 言い換えれば、ボットが私の Web サイトをクロールするたびに、ボットが古いスレッドを何度もクロールし続けることを望まないのです。

また、以前にクロールされたページはどうですか? ボットは、Web サイトをクロールするたびに、それらがサイトに残っていることを確認するためにそれらを要求しますか? 私は最新のスレッドにのみリンクしているため、これを求めています。つまり、すべての最新スレッドのリストを含むページがありますが、古いスレッドにはリンクしていません。URL、たとえば http で明示的に要求する必要があります。 ://example.com/showthread.aspx?threadid=7、これは、ボットがサイトをダウンさせて帯域幅をすべて消費するのを防ぐために機能しますか?

PS サイトはまだ開発中ですが、検索エンジン ボットによってサイトがダウンしないようにサイトを設計するために知りたいです。

4

3 に答える 3

8

複雑なもの。

私の経験では、クローラーがどのページをクロールするかは、ページをリンクするために使用する URL スキームに大きく依存します。

  • たとえば、topicID=123 クエリ文字列の代わりに URL 書き換えを使用し、すべてのページがメイン ページから数回クリックするだけで簡単にリンクできる場合など、クロールしやすい URLで適切にハイパーリンクされている場合、ほとんどのエンジンは Web サイト全体をクロールします。

  • もう 1 つのケースはページングです。ページングがある場合、ボットは最初のページだけをクロールし、次のページのリンクが同じドキュメント (Web サイト全体の 1 つの index.php など) にヒットし続けることを発見すると停止します。

  • 「delete.php?topicID=123」にリンクする「トピックの削除」リンクなど、特定のアクションを実行する Web ページにボットが誤ってヒットすることは望ましくないため、ほとんどのクローラーはそのような場合もチェックします。

  • SEOmozのツール ページでは、一部のクローラーの動作方法や、クローラーが抽出して咀嚼する情報などに関する多くの情報と洞察も提供しています。クロールされたかどうか。

  • また、一部のクローラーでは、クロール動作をカスタマイズできます... Google サイトマップなどです。MSN や Yahoo からも同様のサービスが提供されていることは覚えていますが、自分で試したことはありません。

  • Web サイトのルートにrobots.txtファイルを提供することで、クロール ボットが Web サイトを圧倒しないように調整できます。

基本的に、URL がクローラーに敵対的に見えないようにフォーラムを設計すると、Web サイト全体が楽しくクロールされます。

于 2008-11-07T08:21:05.577 に答える
0

chakrit が言ったことに基づいて構築するために、一部の検索エンジン (特に Google) は、1 つまたは 2 つのパラメーターしか持たないページのみをインデックスに登録します。その後、ページは一般的に無視されます。これはおそらく、あまりにも動的で信頼性の低い URL であると見なされるためです。

パラメータを持たない SEO フレンドリーな URL を作成するのが最善ですが、その代わりに Apacheのmod_rewriteやRails のルートなどの背後に実装を隠します。(例: http://domain.com/forum/post/123は http://domain.com/forum/post.php?id=123にマップされます)。

Chakrit は、Google サイトマップについても言及しています。これらは、Google がすべての投稿をスキャンし、インデックスに永続的に保持するのに役立ちます。Jeff Atwood がStackoverflow ポッドキャスト 24でこれについて議論しており、Google はすべての Stackoverflow 投稿をサイトマップ内に配置するまで保持していなかったと説明しています。

于 2008-11-10T19:29:28.973 に答える
0

クロール ボットはサイト全体を一度にクロールするのではなく、アクセスごとにいくつかのページをクロールします。クロールの頻度と毎回クロールされるページ数は、サイトごとに大きく異なります。

Google によってインデックスに登録された各ページは、変更がないことを確認するために時々再度クロールされます。

サイトマップを使用すると、検索エンジンができるだけ多くのページをインデックスに登録できるようになります。

于 2008-11-21T08:40:11.143 に答える