問題タブ [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web - monodoc.ashx とは何ですか? googlebot がそれを要求するのはなぜですか?
たくさんのリクエストをいただいています。それらはすべてで始まります
次に、.NET クラスのように見えるものが続きます。これらは何ですか?なぜ googlebot はそれらを要求するのですか?
アクセスログとエラーログが汚染されないように、オフにする必要があります。
asp.net - Googlebot は .aspx ページにアクセスしています。SEO に適した URL のみにアクセスする必要があります
Googlebot が.aspx
私のウェブサイトのページにアクセスしています。例: http://mysite.com/thepage.apx?id=32
私は SEO に適した URL に Intelgencia URL モジュールを使用しました。私の Web サイトには、わかりやすい URL (または拡張子のない URL) を表示するリンクもあります (例: http://mysite.com/thepage/32 ) 。
ただし、googlebot は元の URL (http://mysite.com/thepage.apx?id=32) にアクセスしています。
robot.txt ファイルに、次のコードを配置しました。
許可しない: *.aspx
私の質問は、.aspx
ページとフレンドリ URL (同じページを指す) を持つすべてのページを非表示にするか、拡張機能.aspx
だけでページを非表示にするかです。.aspx
概要:
Googlebot は 2 つの URL で同じページにアクセスしています:
- somesite/thepage.aspx?id=xx などの元のパスを使用
- フレンドリ URL somesite/somepage/xx を使用して、googlebot にフレンドリ URL のみにアクセスさせたい。私はasp.net 2.0を使用しており、わかりやすいURLは
web.config
intellgencia dllを使用してマップされています。
Intelgencia モジュールを使用して web.config にコードを記述します。
php - Google ボットが最後にページにアクセスした時刻を取得するにはどうすればよいですか?
Googlebot の最終アクセス日を取得する次の関数があります。
しかし、このスクリプトは、結果として画面内のページ全体のスナップショットを出力します。ページ全体がGoogleにキャッシュされましたが、単語の後の日時のみをキャプチャしas it appeared on
て印刷したい8 Oct 2011 14:03:12 GMT
.
方法?
php - URL パラメータに基づいて Google ボットのアクセスを制限する
たとえば、次のリンクがあります。
の場合、Google ボットへのアクセスを許可したくありません。それを無効にすることは可能ですかview
。oddsdetails
私はJoomlaフレームワークを使用しているので、すでにrobots.txtがあります。可能であればそれを拡張したいと考えています。
php - googlebotを識別するための最良の方法
Googlebotクローラーを識別するための最も信頼性が高く最速の方法は何ですか?rDNSはスプーフィングされる可能性があるため、googlebotのIPリストが最も信頼できる方法のようです。実際のgooglebotipsを取得できるサイト/リソースはありますか?他のアイデアは歓迎します。
indexing - Googlebot は HTML コメントのリンクをインデックスに登録していますか?
Google ウェブマスター ツールで膨大な数の NOT FOUND リンクを取得しました。リンクは、HTML コメントに挿入されたフッターのコード セクションから来ているようです。
すべてのページに NOARCHIVE タグがあるため、おそらくキャッシュの問題ではありません
これは誰かに起こりましたか?
iphone - iPhone と Googlebot が混在するユーザー エージェント
私のサイトでは、この「奇妙な」ユーザー エージェントが表示されます。
Mozilla/5.0+(iPhone;+U;+CPU+iPhone+OS+4_1+like+Mac+OS+X;+en-us)+AppleWebKit/532.9+(KHTML,+like+Gecko)+Version/4.0. 5+Mobile/8B117+Safari/6531.22.7+(互換;+Googlebot-Mobile/2.1;++http://www.google.com/bot.html)
それが iPhone なのか Google Bot なのか知っていますか?
php - Googleを除外するPHPコード.
私は広告のウェブサイトを持っています。このウェブサイトでは、ユーザーが履歴の目的で訪問した各製品ページをデータベースに保存しているため、最後に訪問した製品を表示できます。
問題は、Googlebot や他のユーザーが私のサイトにアクセスすると、Google がアクセスする何千もの製品ページを傷つけるため、DB が何千ものエントリでいっぱいになることです。
現在のユーザーがgooglebotであるかどうかを調べるためにさまざまな機能$_SERVER['HTTP_USER_AGENT']
を試してみました。そうであれば、dbのページビューを痛めないようにして、役に立たない結果でスパムされないようにしましたが、どれも機能していないようです。 Google の IP を取得し、データベースで認識します。
グーグルを確実に排除するためのPHPの良い方法を知っている人はいますか?
.htaccess - mod_rewrite を使用した SEO に適した URL は、結果に SEO に適したものにしようとしているファイルを示します
Google seo のために、mod の書き換えを正しく行うのに問題があります。
www.example.com/p/press goto internal ./pages/press.html
ただし、Google はリンクを www.example.com/p/press として表示する必要があります。
それは可能ですか?または、Google は URL を www.example.com/pages/press.html として表示しますか?
他のすべてのリンクとブラウザは www.example2.com に移動する必要があります
別の時間にページが pages/press.html でヒットしたと仮定すると、それは下のルールに一致し、そこにリダイレクトされます。mod_alias などを使用して /p/press 呼び出しで初めてコンテンツを表示する方法はありますか?