問題タブ [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-ec2 - Google レンダリング用の AWS EC2 インスタンスで HTML スナップショットを作成する
サーバー側でHTMLスナップショットを作成して、レンダリング(クロール)のためにGoogleに提供するにはどうすればよいですか。ヘッドレスサーバーであるAWS EC2インスタンスで実行する必要があります。では、これについてどうすればよいですか?
web-crawler - Googlebot は要素の属性タグをクロールしますか?
Google が要素の属性タグの内容を重視するかどうかは誰にもわかりませんか?
これを支持または反証する文書はありますか? それとも、コンテンツを表示する必要がありますか?
たとえば、これはお勧めできません (属性のデータは、後で JavaScript を使用してページに表示されます)。
amazon-s3 - AWS S3 でホストされているサイトで Web クローラーが動作し、AJAX を使用していることを確認する方法
Google ウェブマスター ガイドでは、ウェブ サーバーは _escaped_fragment_ を含む URL のリクエストを処理する必要があると説明しています (クローラーは www.example.com/ajax.html#!mystate を www.example.com/ajax.html?_escaped_fragment_=mystate に変更します)。
http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=174992
私のサイトは AWS S3 にあり、そのようなリクエストを処理するための Web サーバーがありません。クローラーがフィードを取得し、サイトがインデックスを取得するようにするにはどうすればよいですか?
php - jquery を利用した Web サイトをクロールする方法は?
単一ページの JavaScript を使用した Web サイトを構築しています。ホームページのjsonオブジェクトとしてphpを使用してエコーされたすべてのページに必要なすべてのデータがあります。次に、各ページ用に作成されたカスタム プラグインを使用してページを初期化します。これにより、プラグインに渡す関連する json データを使用して dom が動的に構築されるため、ajax リクエストはありません。私のウェブサイトのリンクは、!#about、!#home などの形式になっています。現在、プラグインの init メソッドはhashchangeで呼び出されています。これらのページを Google ボットがクロールできるようにするにはどうすればよいですか? また、これらのページごとに異なるタイトルと説明のメタ タグを作成するにはどうすればよいですか?
Googleドキュメントや他の多くのWebサイトで見つけたさまざまなことを試しました。リンクを #mylink から #!mylink に変更したため、Googleはそれを get _escape_fragment_ 変数として解釈する 必要があるため、この PHP コードのチャンクを追加しようとしました。
project.php は、クロールしたい関連情報を含む html スナップショットです。基本的にコア情報のみです。しかし、私が見る限り、何も起こらない... :( 結局、AJAXリクエストなしでこれを達成する方法はありますか?
html - 「googleoff」と「googleon」でページの一部をクロールしない
Google や他の検索エンジンに、自分の Web ページの一部をクロールしないように指示しようとしています。
私がすることは:
ページをアップロードした後、検索エンジンがまだ googleoff マークアップ内の要素をレンダリングしていることに気付きました。
私は何か間違ったことをしていますか?
php - PHP で生成された画像をクロールする方法
私はウェブサイト textscloud.com を持っています
。このウェブサイトでは、PHP GD ライブラリを使用して画像を作成しています。デモへのリンクは次のとおりです。
このページでは、テキストが印刷されるイメージをユーザーがダウンロードできるようにします。ダウンロードリンクは
この download.php ファイルには、PHP GD ライブラリで画像を作成するためのヘッダーがあり、このようにファイルをダウンロードします。
しかし、Google はこれらの画像をクロールしませんでした。誰かが解決策を知っていますか?これらの画像をサーバーに保存できません。
jquery - jqueryを介して動的にロードするGoogleインデックスページはどのようにしますか
重複の可能性:
Google は AJAX コンテンツをクロールしますか?
だから私はフォーラムを持っています - リンクは次の URL 形式です COURSE PAGE - http://www.example.com/course/course-feed/course_id/1
このページにはたくさんの質問があり、各質問にはリンクがあり、クリックすると質問の詳細ページに移動し、その質問に対するすべての回答が表示されます -
詳細な質問ページのフォーマット例 url QUESTION PAGE - http://www.example.com/course/question-feed/course_question_id/636
したがって、5000 の質問がある場合、5000 の質問ページに回答があります。
私の質問はCOURSE PAGEです。明らかに、5000問すべてが表示されるわけではありません。むしろ、50 の質問リンクが表示され、下部に「MORE」ボタンがあります。
ユーザーが「MORE」をクリックすると、次の 50 個の質問が JQUERY 呼び出しによって取得され、下に表示されます。この操作が行われると、URL は明らかに変更されません。
最近、Google でインデックスされたページの数を調べたところ、最初の 50 の質問ページのみでした。インデックスされたコース ページには 50 の質問リンクしか表示されないためです。
私の質問は、クローラーがすべての「MORE」リンクを通過し、5000 ページすべてにインデックスを付ける方法です。
php - .htaccess / php リダイレクト 301 302 Web クローラー専用
「通常の」ユーザートラフィックをそのまま維持しながら、Webクローラー(主にGoogle)からのトラフィックのみをリダイレクトする方法はありますか?
私のシナリオは次のとおりです。
クライアントは、彼が販売した (ドメイン) ドメイン ( www.domain-1.com ) に Web サイトを持っていました。ウェブサイトは現在、2 番目のドメイン (www.domain-2.com) に移行中です。
domain-1 が独自の異なるコンテンツを持っていることを忘れずに、同じ Web サイトが domain-1 から domain-2 に移動したことをクローラーに伝える方法はありますか? (したがって、どういうわけか古いドメイン 2 のインデックス付きリンクとランキングを維持していますか?)
通常、私はPHPで次のようなヘッダーを送信する通常の永続的なリダイレクトを行うことを知っています:
しかし、上記の場合、次を使用する必要があるかどうかわかりません。
- A. 302 / 302 / 私が知らない他のもの
- B .php / .htaccess
それは可能ですか?
アドバイスをお願いします。
ajax - Googleクロールajax/動的生成コンテンツ-SEO
私は非常にユニークな状況にあり、ここにある他のトピックのどれも関連しているとは思わない。
サードパーティのサイトに動的にロード/埋め込まれるeコマースモジュールがありますが、コンテンツへのWebクライアントへのiframeストレートJSONはありません。私はこれらのサードパーティのサイトにまったくアクセスできません。それ以外は、JavaScriptファイルがページから読み込まれ、コンテンツを動的に生成します。
私は#を知っています!方法ですが、ここでは良くありません。私のJSは組み込みプラットフォーム内で「URL」を生成しますが、それらは偽物であり、アドレスバー専用であり、Googleクローラーがこれまで到達できるとは思いません。
だから私の質問は、URLの外側を指すように設定できるメタがありますか?つまり、静的なクロール可能なコンテンツでサーバーに戻ることができます。つまり、正規サーバーをサーバーに向けています...しかし、これもうまくいくとは思いません。
seo - PHPでGoogleボットを認識する方法はありますか?
お酒のサイトを作ってみました。すべてのリンクで年齢確認が必要です。これは単一ページの Web サイトで、バックボーン ルーティング システムを使用しています。SESSION オブジェクトでチェックを作成したので、SESSION オブジェクトが設定されていない場合は、イントロ ビュー (年齢確認ビュー) を読み込みます。これはすべて期待どおりに機能していますが、問題は Google ボットです。彼らが私のページをクロールしようとすると、アプリは常にイントロ (年齢確認) ビューを読み込んでいます。ここにウェブサイトへのリンクがありますが、これは技術的な質問よりも論理的な質問だと思うので、あまり役に立たないと思います...私の質問は、訪問者のみをリダイレクトしてGoogleに許可する方法ですボットはページの実際のコンテンツを見ることができますか? Cookie を使用する必要がありますか、それとも php でこれを実現する方法はありますか?