問題タブ [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 秘密のクエリ文字列は、安全でないサイトへのアクセスを制限し、コンテンツを非表示にする合理的な方法ですか?
ですから、前もって言いますが、明らかに、これが実際には安全ではないことはわかっています。怠惰な観点からの質問に興味があります。
私は、一般の人々から「隠したい」情報を含む Web サイトを持っています。重要なものや脆弱なものはありません。人々がそれを見つけて台無しにしたくないだけです。すべてのクロールを禁止する robots.txt ファイルを既に持っています。このページにはリンクがありません (または、他のサイトからこのサイトへのリンクはありません)。
セットアップ
example.comは「アクセスが許可されていません」ページに移動しますが、 example.com ?real=funは実際にコンテンツを取得します。クエリのキーと値のペアが正しくない限り、PHP は実際にはページを実行しません。では、誰もこのページを偶然見つけたり、たまたま見つけたとしても、コンテンツにアクセスできないと仮定するのは理にかなっていますか?
はい、私は怠け者ですが、それでも知りたいです。
•編集•「これを行う方法」を探しているわけではありません。私はすでにそれをやった。正しい答えは、人がこの手法を使用するページにアクセスするための他の基本的な方法がある場合に対処します.
android - Android マーケットプレイス クローラー?
私はプロジェクトに取り組んでいます。Androidマーケットプレイスをクロールして、可能な限りすべてを取得するのに助けが必要です. これに役立つ多くのサードパーティのクローラー API を見つけました。ただし、マーケットプレイスが強制する制約があるため、どのリクエストに対しても 200 件の結果しか取得できません。そのため、リクエストを複数のリクエストに分割し、一度に 200 アイテムを取得しました。パブリッシャーで検索します (200 以上のアプリを公開しているパブリッシャーは多くありません)。問題は、すべての発行元のリストを取得する必要があることです。リストを最新のものにしたい。
ここに私が見たいくつかのAPIがあります:
http://code.google.com/p/android-market-api/
http://code.google.com/p/android-marketplace-crawler/
他の提案があれば、それは素晴らしいことです。また、私はこれらのサービスに対して喜んで支払います。
google-search - GoogleリッチスニペットがGoogle検索に表示されないが、テストツールに表示される
奇妙な問題があります。
http://www.google.com/support/webmasters/bin/answer.py?hl=ja&answer=146897
レビュー セクション、hreview 集計を実装し、richsnippets toll でテストしましたが、これでも正しく表示されます。

しかし、Google にアクセスしてこのページを検索しても変化はありません。質問は次のとおりです。
1) 問題は何ですか?
2) Google がこれらの変更を表示するのにどれくらいの時間がかかりますか?
よろしくお願いします
ajax - クローキングとは
ひとまずクローキングとは何かは理解できたと思いますが、具体的にはどういうことですか?
私の問題: Wavemaker を使用して作成した Web アプリケーションがあるため、javascript と ajax 呼び出しでいっぱいです。したがって、Google クローラーは私のコンテンツをまったく見ることができません。私の考えは、javascript が無効になっているユーザーと Google クローラー用に、別の単純な html ページを作成することです。このページには、次のような JavaScript ブロックとリダイレクトが含まれています。
リダイレクトは、ユーザーがこのサイトを閲覧し、JavaScript をオンにしている場合にのみ発生します。Google クローラーがリダイレクトされることはありません。両方のページのコンテンツは同じですが、URL が異なります。このテクニックはクローキングだと思いますか?
indexing - Googleは私のサイトマップをウェブページとしてインデックスに登録します
次の問題があります。サイトマップのコンテンツがGOOGLEの検索結果に表示されます。メインページにサイトマップへのリンクがあります。それはそれを引き起こす可能性があります。このURLをサイトマップとしてGOOGLEに追加しましたが、サイトマップやウェブページとしてではなく、サイトマップとしてのみ扱われるようにしたいと思います。GOOGLEにウェブページとしてインデックスを付けないように指示するにはどうすればよいですか?robots.txtを使用していますか?
ありがとうございました
web-crawler - ディレクティブ robots.txt の作成
クロールしたいリンクのリストがあります。クローラーが自分で見つけた他のすべてのリンクをクロールしないようにしたいと思います
。
私が調べた方向:サイトマップに存在するものを期待するすべてのページを禁止するrobots.txtを作成します。このようなファイルを作成する方法についての情報を見ました。
Allow: /folder1/myfile.html
Disallow: /folder1/
しかし、クロールしたいリンクは特定のフォルダーにありません。実際にはサイト マップであるヒュー ファイルを彼に作成することはできますが、それは合理的ではないようです。あなたは何をお勧めします?
jquery - グーグルの#!Ajaxの実装-jQueryでは機能しません
OK、私は机に頭をぶつけていて、明らかに単純なものが欠けています。
私のAjaxページをグーグルでクロール可能にしようとしています。ただし、機能していません。
ところで、私が呼び出すコンテンツにはリンクがあり、プライマリナビゲーションとして機能します。
前もって感謝します!
OK、助けてくれてありがとう。ここに私が立っています:1。)私のページは#で実装されています!AJAXは正常に機能しています2.)Firefoxにアクセスし、ファイルのHTMLバージョンをコピーして保存しました3.)phpファイルの先頭にスクリプトを配置して「?_escaped_fragment_ =」を検出し、htmlファイルにリダイレクトします。
ただし、Googleのfetchbotを確認すると、AJAXで生成されたコンテンツは表示されません。「?_escaped_fragment_ =」をアドレスバーにロードして、適切なhtmlコピーがロードされていることを確認しました。実際にロードされています。
ページ上部のコードは次のとおりです。
最後の数行は機能していません。http://code.google.com/web/ajaxcrawling/docs/html-snapshot.htmlで説明されているように、その場でHTMLスナップショットを生成しようとしました。
助けてくれてありがとう!
html - Google 検索結果に記事の評価を表示する
コミュニティが投稿を評価するレビュー サイトを書いています。Google がこの評価を取得して、検索結果に表示できることに気付きました。これがどのように達成されるか知っている人はいますか?
たとえば、IGN のようなレビュー サイトでは、以下のスクリーン ショットで、レビューの評価が 9.3/10 であることを示しています。

自分のレビュー評価を Google に示すにはどうすればよいですか? ある種のカスタム メタ タグか何かかもしれません。
seo - SEO:動的に生成されたリンクをクロールできますか?
onclick = ""コードのタグを含むページがあります。このページ<div>はajaxリクエストを呼び出してjsonデータを取得し、結果を繰り返してリンク(<a />)を形成してページに追加します。これらのリンクは、私のWebサイトの他の場所には存在しません。これらの動的に生成されたリンクをクロール可能にするにはどうすればよいですか?
私の最初の考えは、タグをhref = "#"の<div>タグに変換<a>することでしたが、一般的なクローラーがどのように機能するかについての知識が限られているため、「#」が認識されるので、これで問題が解決するとは思いません。クローラーであり、必ずしも動的に生成される出力ではありません。これは、スクロールの位置をまったく変更したくないという点に加えて、<a>タグにIDを付けて、それ自体を参照させることも除外します。
クロールする必要のあるすべてのリンクを含む新しいページを作成する以外に、オプションはありますか?ありがとう。
javascript - Google のクローラーは、非同期に読み込まれた要素をインデックスに登録しますか?
ページがロードされた後に非同期的にロードされる Web サイト用のウィジェットをいくつか作成しました。
ページが完全に読み込まれた後 (非同期 JavaScript が HTML を変更した後) にのみ、ページをインデックスに登録するように Google のクローラーに通知する方法はありますか?