問題タブ [search-engine-bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - 検索ボットがセッションIDなしでサイトをクロールできるようにする
Googleのウェブマスターガイドラインは
検索ボットが、サイト内のパスを追跡するセッションIDや引数なしでサイトをクロールできるようにします。これらの手法は、個々のユーザーの行動を追跡するのに役立ちますが、ボットのアクセスパターンはまったく異なります。ボットは、見た目は異なるが実際には同じページを指しているURLを削除できない可能性があるため、これらの手法を使用すると、サイトのインデックス作成が不完全になる可能性があります。
私のASP.NET1.1サイトは、カスタム認証/承認を使用しており、セッションGUIDにかなり依存しています(このアプローチと同様)。セッション以外の追跡トラフィックを許可すると、既存のコードが破損するか、セキュリティの脆弱性が発生するのではないかと心配しています。
非セッション追跡ボットが通常のセッション追跡サイトをクロールできるようにするためのベストプラクティスは何ですか?また、ユーザーエージェントを検査する以外に、検索ボットを検出する方法はありますか(セッション追跡を回避するために、ユーザーがgooglebotになりすましてほしくない)。
web-crawler - robots.txt ファイルでの許可と禁止
特別なフォルダーとその中のファイルを除いて、SE ボットからサイト上のすべてのファイルとフォルダーを禁止したいと考えています。これらの行を robots.txt ファイルで使用できますか?
そうですか?
search-engine - Googleクローラーはrobots.txtを見つけましたが、ダウンロードできません
このrobots.txtの何が問題になっているのか誰か教えてもらえますか?
http://bizup.cloudapp.net/robots.txt
以下は、Googleウェブマスターツールで発生するエラーです。
実際、上記のリンクは、アクションロボットに向かうルートのマッピングです。このアクションは、ストレージからファイルを取得し、コンテンツをテキスト/プレーンとして返します。グーグルは彼らがファイルをダウンロードすることができないと言います。そのせいですか?
css - Javascript を使用して SEO の問題を回避する
SEO を損なわないように、Javascript を使用して HTML 要素/コンテンツの操作を開始するのは、どの段階でよいのでしょうか?
display:none
CSS プロパティを使用して非表示になっている HTML コンテンツは、Google クローラーによってペナルティを受けることが多いとどこかで読んだことがあります。 、ただし、ユーザーが適切なリンクをクリックすると表示されます。したがって、私の意図は、ユーザーからコンテンツを完全に隠すことではなく、ユーザー エクスペリエンスを向上させることです。
これを行う理由は、Javascript が配置される前に、一瞬 (または場合によっては完全な 2 秒) の恐ろしいスタイルのない html 要素 (ポジショニング) を防ぎ、すべてを非表示にして整理することです。そのため、最前線にを追加してdisplay:none
から、Javascript を使用して可視性を切り替えるのが理想的でしたが、Google 検索エンジン ボットでは明らかに不可能です。
専門家にアドバイスはありますか?ありがとうございました!
seo - 新しいサイトが古いドメインに移行
私には何年にもわたって多くの異なる検索用語で彼らの製品をグーグルのトップに上げることに成功したクライアントがいます。彼らは、新しいサイトが彼らのグーグルランキングに悪影響を与えるべきではないと断固として主張している。
このサイトは、現在のドメインにあるサイトを置き換えるだけでなく、さらに5つのドメインに移行します。
これのいずれかがグーグルの現在のランキングでクライアントを失いますか?
asp.net - ASP.Net searchbots(google)が免責事項ページをスキップできるようにする方法
私はASP.NETWebサイトを作成しています。魔女は、ユーザーに免責事項を受け入れるように強制します。彼らが免責事項を受け入れると、Cookieとセッションが設定されます。各ページリクエストで、セッションまたはCookieが存在するかどうかを確認するためのチェックが実行されます。
Googleや他の検索ボットが、免責事項に同意せずにすべてのページをインデックスに登録/クローイングできるようにしたいと考えています。
これを行うための最良の方法は何ですか?私が考えることができる唯一のことは、のチェックですが、Request.ServerVariables
私が探すべき魔女の価値がわかりませんか?
http-headers - robots.txtのリクエストにHTTPコード418AKA「私はティーポットです」で応答すると、検索エンジンは私を嫌いますか?
HTML5のCanvas内で実行される非常に単純なWebアプリがあり、検索エンジンでインデックスを作成する必要のあるパブリックファイルはありません(必要なすべてのリソースへの呼び出しを含むフロントページのHTMLファイル以外)。robots.txt
そのため、公開ファイルが表示されるだけなので、ファイルは必要ありません。
冗談として、Webクローラーが要求するたびにHTTP-418AKA「私はティーポットです」という応答を返したいと思いますrobots.txt
。しかし、これが検索結果での私の位置に関して私を台無しにすることになった場合、これは私にとって非常に価値のある冗談ではありません。
さまざまなWebクローラーが非標準(この場合は技術的には標準ですが)のHTTPコードにどのように応答するかについて誰かが知っていますか?
また、もっと深刻なことに、robots.txt
「すべてが索引付け可能です!」というファイルを作成する理由はありますか。ファイルがないだけでなく?
javascript - 検索ボットやスパムボットは JavaScript イベントをエミュレート/トリガーできますか?
検索ボットまたはスパムボットは、ページを読み上げている間に JavaScript イベントをエミュレート/トリガーできますか?
search-engine - 「分類エンジン」?
検索エンジンドメインの「分類エンジン」について説明できる人はいますか? 私はそれをグーグルで調べましたが、満足のいく説明を見つけることができませんでした.参照リンクでも役立ちます!
PS : よろしくお願いします!
web-scraping - 検索ボットの検出
サイトがスクレイパーによってスクレイピングされるのを防ぐことは可能ですか?同時に、検索エンジンがコンテンツを解析できるようにします。
ユーザーエージェントをチェックすることは、それらをシミュレートするのが非常に簡単であるため、最良のオプションではありません。
JavaScriptチェックは(GoogleがJSを実行する)オプションである可能性がありますが、優れたパーサーもそれを行うことができます。
何か案は?