問題タブ [search-engine-bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
indexing - 特定のアドレスがクロールされた Robots.txt になるのをブロックする
(SEO の結果を改善するために) Robots.txt から特定の Web アドレスを削除するように依頼されました。
両方のアドレスが同じ Web サイトを指しているにもかかわらず、特定のドメインをブロックする方法を見つけるのに苦労しています (SEO は私の得意分野ではありません)。
例えば:
http://foo.example.com -- インデックス登録を停止する必要があるWeb アドレス
http://www.examplefoo.com -- インデックス登録したい Web アドレス
私が言えることから、disallow /を使用すると、両方からのみブロックされます(それらは同じサイトであるため)
何か助けて?! これがばかげた質問である場合は申し訳ありません..
curl - curl を介した Web サービス呼び出しで問題を作成するボットを検索する
ユーザーが製品詳細ページを開いたときに、ベンダー Web サービスからライブ在庫を取得するための curl コードを実装しました。
しかし、検索エンジン ボットがページにアクセスしているため、毎秒 1000 回の Web サービスへの curl 呼び出しが発生します。
この問題を修正する方法。Googleで検索しましたが、正確な答えはまだ見つかりませんでした。
seo - 1 つの URL に対してのみ robots.txt のクエリ文字列を許可しない
chickens.com/hatching
そのため、インデックスを作成できる潜在的なクエリ文字列を含む 1 つの URLがありますchickens.com/hatching?type=fast
。私は間違いなくベースURLをchickens.com/hatching
インデックス化して保持したいと思いますが、クエリパラメータは保持しません. このページだけでなく、他のページでクエリ パラメータのインデックスを作成したいので、すべてのページのキャッチオールは機能しません。第二に、末尾のスラッシュを削除するために URL を書き換えてchickens.com/hatching/?type=fast
います。chickens.com/hatching?type=fast
これは私の問題の解決策として機能しますか?
これは Google クローラーでしか機能しないと聞きましたが、すべてのクローラーに対してより堅牢なソリューションはありますか?
助けてくれてありがとう!大変感謝しております。
amazon-cloudfront - Google は、CloudFront によって配布された地理的に制限されたページをインデックスに登録していません
CloudFront を使用して AWS でホストされているウェブサイトを持っていますが、いくつかの法的制限により、英国とアイルランドでのみアクセスできるようにする必要があります。
CloudFront で地域制限を設定し、ウェブマスター ツールを介してドメインを Google に送信した後 (先週の初め - 1 月 2 日)、ウェブサイトがまだインデックスに登録されておらず、Google によって認識されていないことに気付きました (ドメインの検索またはsite:mysite.co.uk は何にもなりません)。
私の考えでは、Google クローラーが米国のサーバーからページにアクセスしようとすると、サイトが英国とアイルランドのみを対象としているという一般的なエラー ページにリダイレクトされ、それを次のようにインデックス付けすることを拒否するという事実によるものです。非常に低品質のウェブサイトのようです。
誰かが同様の問題に遭遇し、解決策を見つけましたか?
Google Webmaster Tools にサイトマップを送信して、それが役立つかどうかを確認することを計画していますが、robots.txt ファイルがこの問題の解決に役立つかどうかも考えています。
同意する場合、そこに入れるべきルールについて何かアドバイスはありますか? 私は常にこのファイルを使用して、ウェブサイトのどの部分をインデックスから除外するかを単にクローラーに知らせていました。
どんなアドバイスも非常に役に立ちます。
前もって感謝します、
アダム