問題タブ [search-engine-bots]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

48 問題

0 投票する

1 に答える

41 参照

indexing - 特定のアドレスがクロールされた Robots.txt になるのをブロックする

(SEO の結果を改善するために) Robots.txt から特定の Web アドレスを削除するように依頼されました。

両方のアドレスが同じ Web サイトを指しているにもかかわらず、特定のドメインをブロックする方法を見つけるのに苦労しています (SEO は私の得意分野ではありません)。

例えば：

http://foo.example.com -- インデックス登録を停止する必要があるWeb アドレス
http://www.examplefoo.com -- インデックス登録したい Web アドレス

私が言えることから、disallow /を使用すると、両方からのみブロックされます（それらは同じサイトであるため）

何か助けて?! これがばかげた質問である場合は申し訳ありません..

2015-11-03T11:51:55.380

0 投票する

1 に答える

58 参照

curl - curl を介した Web サービス呼び出しで問題を作成するボットを検索する

ユーザーが製品詳細ページを開いたときに、ベンダー Web サービスからライブ在庫を取得するための curl コードを実装しました。

しかし、検索エンジンボットがページにアクセスしているため、毎秒 1000 回の Web サービスへの curl 呼び出しが発生します。

この問題を修正する方法。Googleで検索しましたが、正確な答えはまだ見つかりませんでした。

curl web-crawler bots robots.txt search-engine-bots

2015-12-17T06:46:25.867

0 投票する

1 に答える

1524 参照

seo - 1 つの URL に対してのみ robots.txt のクエリ文字列を許可しない

chickens.com/hatchingそのため、インデックスを作成できる潜在的なクエリ文字列を含む 1 つの URLがありますchickens.com/hatching?type=fast。私は間違いなくベースURLをchickens.com/hatchingインデックス化して保持したいと思いますが、クエリパラメータは保持しません. このページだけでなく、他のページでクエリパラメータのインデックスを作成したいので、すべてのページのキャッチオールは機能しません。第二に、末尾のスラッシュを削除するために URL を書き換えてchickens.com/hatching/?type=fastいます。chickens.com/hatching?type=fast

これは私の問題の解決策として機能しますか?

これは Google クローラーでしか機能しないと聞きましたが、すべてのクローラーに対してより堅牢なソリューションはありますか?

助けてくれてありがとう！大変感謝しております。

seo web-crawler search-engine robots.txt search-engine-bots

2016-03-10T23:50:39.937

0 投票する

1 に答える

185 参照

amazon-cloudfront - Google は、CloudFront によって配布された地理的に制限されたページをインデックスに登録していません

CloudFront を使用して AWS でホストされているウェブサイトを持っていますが、いくつかの法的制限により、英国とアイルランドでのみアクセスできるようにする必要があります。

CloudFront で地域制限を設定し、ウェブマスターツールを介してドメインを Google に送信した後 (先週の初め - 1 月 2 日)、ウェブサイトがまだインデックスに登録されておらず、Google によって認識されていないことに気付きました (ドメインの検索またはsite:mysite.co.uk は何にもなりません)。

私の考えでは、Google クローラーが米国のサーバーからページにアクセスしようとすると、サイトが英国とアイルランドのみを対象としているという一般的なエラーページにリダイレクトされ、それを次のようにインデックス付けすることを拒否するという事実によるものです。非常に低品質のウェブサイトのようです。

誰かが同様の問題に遭遇し、解決策を見つけましたか?

Google Webmaster Tools にサイトマップを送信して、それが役立つかどうかを確認することを計画していますが、robots.txt ファイルがこの問題の解決に役立つかどうかも考えています。

同意する場合、そこに入れるべきルールについて何かアドバイスはありますか? 私は常にこのファイルを使用して、ウェブサイトのどの部分をインデックスから除外するかを単にクローラーに知らせていました。

どんなアドバイスも非常に役に立ちます。

前もって感謝します、

アダム

amazon-cloudfront google-search-console google-crawlers search-engine-bots

2018-01-12T11:38:07.080

1 2 3 4 5 6 7 8 9 10

問題タブ [search-engine-bots]

indexing - 特定のアドレスがクロールされた Robots.txt になるのをブロックする

curl - curl を介した Web サービス呼び出しで問題を作成するボットを検索する

seo - 1 つの URL に対してのみ robots.txt のクエリ文字列を許可しない

amazon-cloudfront - Google は、CloudFront によって配布された地理的に制限されたページをインデックスに登録していません

Reference