問題タブ [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sharepoint - Sharepoint 2013 サイトが 304 Not Modified を返す
SharePoint 2013 サイトの 1 つが Google ボットでクロールできません。Google によると、彼は Robots.txt にアクセスできません。クロム開発者ツールを見ると、サーバーが 304 コードを返しているようです。
どうすればこの問題を解決できますか?
編集: "www."(xxxxx.com/robots.txt) なしで URL を呼び出すと、サーバーは 200 を返します。
ユーザーエージェント: *
seo - Google が動的エラー ページをインデックスに登録できないようにする (なし 404)
404私のウェブサイトにはエラーのないページがいくつかあります。Google がそれらをインデックスに登録しないようにする最善の方法は何ですか?
オプション1
コンテンツがなくなっていない場合はどうなりますか?例:the article does not exist.またはwrong parameter has been caught
オプション 2
影響を受けるのは 1 つのページだけですか、それともドメイン全体ですか?
オプション 3
404を使用すると、他の問題が発生するため、避けたいと思います。
robot.txt
エラーはデータベースに依存し、静的ではないため、このオプションは機能しません。
sitemap - Google 検索結果で自分の最新のサイト コンテンツ (ニュース) をすべて表示するにはどうすればよいですか?
私は、オンラインの新聞やサイトからニュースを収集するニュース マガジン サイトを持っています。サイトのコンテンツと最初のページは 2 ~ 5 分ごとに変わります (新しいニュースを検索し、最初のページに最新のニュース リストが表示されるため)。何が間違っていて、どうすればよいですか。
ありがとう
.htaccess - ディレクトリ構造の変更に関するクローラー情報の更新
古いサイトには、廃止されたディレクトリがいくつかありました。404s の流入がランキングに影響するのではないかと心配しています。
たとえば、以前www.mysite.com/intranet/はサーバーに存在しなくなりましたが、Google はそのフォルダーの古いレコードを更新し、404s. 404( RSS 経由で sを報告するプラグインを使用しています)
私が見るオプションは次のとおりです。
- これらの URL をリダイレクトする
.htaccess - via を許可しない
robots.txt(そのようなディレクトリがないため混乱する) - ウェブマスター ツールを使用してディレクトリを削除します (おそらく、これを実行する推奨される理由ではありません)。
これらのディレクトリがまだサイトの一部であると Google が認識しないようにする方法について、どなたかご意見をいただければ幸いです。
ajax - Google クローラーは #! を翻訳しません。ajax アプリケーションでの _escaped_fragment_ へのマッピング
#!ナビゲーションに(ハッシュバン)を使用することになっている単一ページアプリケーションがあります。Making AJAX Applications Crawlableに関する Google の仕様を読みました。アプリケーションが必要な方法で動作することをテストするにはどうすればよいですか?
http://www.mysite.org/de#!foo=barなどのgoogle plus debuggerにアプリケーションを入力しました。ただし、Apache のアクセス ログは、Google クローラーが に変換しないことを示しているため、Google デバッガーは引き続きハッシュ バンなしで取得します。#!_escaped_fragment_/de
(よく注意してください:まだフラグメントGET /deなしで )。_escaped_fragment_ hash代わりに、Google が次のようなものを取得することを期待しています。
ajax - リンクが ajax リンクにリダイレクトされる場合、Google クローラーは ajax _escaped_fragment_ 形式を使用しますか?
私は逆を行うことができ、server.com/#!/mystuffajax クロール可能であることを知っていますが、逆が可能かどうかを知りたいです。私が持っていてserver.com/mystuff、それが にリダイレクトを送信する場合server.com/#!/mystuff、Google クローラーはその URL を名前変更プロセスで実行して、 へのリダイレクトをたどりserver.com/?escaped_fragment=mystuffますか?
php - この URL は存在しないページを指しているため、Googlebot はこの URL をクロールできませんでした
この URL は存在しないページを指しているため、Googlebot はこの URL をクロールできませんでした。通常、404 は検索でのサイトのパフォーマンスに悪影響を与えることはありませんが、ユーザー エクスペリエンスの向上に役立てることができます。このエラーは、次の URL で発生します。
どうすれば解決できますか..
ajax - Google は相対 _escaped_fragment_ URL-s をどのように処理しますか?
Google AJAX クロールを理解しようとしています。
たとえば、次のような HTML ページが にありますexample.com。
リンクをクロールする#!foo=barと、Google は fetch しexample.com?_escaped_fragment=foo=barます。これに対する応答として、次の HTML を提供します。
問題は、Google がこの#!blah=zapリンクをどう考えるかということです。2 つの可能性があります。
Google は URL を次のように扱い、
example.com?_escaped_fragment=blah=zapページを正常に取得します。Google は、この相対 URL が実際に解決されることを認識し
example.com?_escaped_fragment=foo=bar#!blah=zap、必要なページを取得できません。
では、どのような方法が考えられるでしょうか?
PS。これをテストする方法はありますか?「Fetch as Google」サービスを使用していますが、ページ上で見つかったリンクをクロールする方法がわかりません。