問題タブ [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
http - Googleボットは無効なリクエストを行いますか?
私は、スパムボットが常に行う無効な要求に基づいてスパムボットのIPを禁止するコンポーネントを構築しており、ユーザーが誤って行うことはありません。
たとえば、彼らは常に空のフォームを送信しようとしたり、POSTリクエストのみを受信する必要があるURLにGETリクエストを行ったりしています。
私が知りたいのは、そうすることでグーグルボットを禁止するリスクがあるかどうかです。
彼らは遭遇するすべてのURLをクロールしないほど賢いですか?彼らはフォームのURLを避けていますか?
java - スパイダーが特定のGETパラメーターを使用してページにアクセスするのを防ぐことはできますか?
オプションでIDをGETパラメーターとして受け取ることができるページがあります。無効なIDが指定された場合、ページはエラーをスローし、誰かがページに誤ってアクセスしているという通知を送信します。火に燃料を追加すると、IDはしばらくの間有効になり、その後期限切れになる可能性があります。
検索エンジンボットが古い期限切れのIDでページにアクセスするという問題が発生しています。これは、スパイダーが発生するたびに「誤検知」アラートが大量に発生することを意味します。ボットに先に進んでページをクロールするように指示する方法が欲しいのですが、GETパラメーターは使用せず、パラメーターのないページにインデックスを付けるだけです。これは、robots.txtファイルなどを使用してリモートで実行することもできますか?
注:これを解決する最善の方法はページの動作を変更することであり、実際には数週間で発生します。当面の間、解決策を探しています。
php - GET パラメータに依存する PHP ページを検索エンジンに適したものにする
スポーツに関するサイトに「コービー・ブライアントは最高だ」という記事があるとします。
1) 記事がこのページにあるかどうかは、Google クローラーに違いをもたらしますか。また、高い検索関連性を達成するために、次のことを行います。
またはこれで:
またはこれで
2) 私は (a) と (b) を達成する方法に精通しており、簡単な拡張のようです。(c) のような URL 形式を実現するにはどうすればよいですか?
ありがとう
jquery - Googlebotはjqueryで生成されたコンテンツを認識しません
jQueryを使用して、jsonリクエストでデータベースからコンテンツを取得します。次に、HTMLのワイルドカード(%title%など)を実際のコンテンツに置き換えます。これはうまく機能し、この方法で多言語のテキストをデータベースに保持できますが、Googlebotはワイルドカードのみを認識し、実際のコンテンツは認識しません。GooglebotがJavaScriptのないページを表示することは知っていますが、これに対処する方法はありますか?ありがとう!
asp.net-mvc-3 - Googlebot のみのリクエスト検証の問題
毛量は多くありませんが、残っている毛を少しずつ抜いています。
私のMVC3アプリは、アクションを介して画像を提供します
a は事前定義された画像サイズ、o はその項目の画像の順序です
Image はコントローラー、ShowImage は FilePathResult を返すアクションです。Googlebot が登場する場合を除いて、これらすべてが問題なく機能します。その後、突然リクエストの検証が開始されます
どのように、なぜ、どちらも私の理解力を超えています。
ShowImage アクションには ValidateInput(False) があり、web.config には httpRuntime requestValidationMode="2.0" がありますが、何も役に立たないようです。
googlebot - Googlebot が私のウェブサイトをもう一度スキャンするまで、どのくらい待つ必要がありますか?
私のウェブサイトの統計で、Google クローラーが私のウェブサイトを 1 回スキャンしたことがわかりました。Googlebot のスキャン頻度について調べてみましたが、適切な情報を見つけることができませんでした。Google ヘルプ ページには、Google にウェブサイトの新しいスキャンを実行するようにリクエストできるリンクがありますが、このリンクは、インデックス作成に問題があると思われるウェブマスターをターゲットにしているようです (私の場合ではありません)。グーグルボットが私のページを再びクロールするまで、どれくらい待つ必要があるのか 疑問に思っていました.
robots.txt - 特定のアクションを禁止する方法は?
禁止したいのですが、許可し/questions/{ID}/foo
ません/questions/{ID}
。
構文はDisallow: /questions/*/foo
?
asp.net - ASP.Net 認証と Googlebot
フォーム認証が有効になっている ASP.Net 3.5 Web サイトがあります。ユーザー名とパスワードの入力を求められることなく、Googlebot に私のウェブサイトをクロールさせることはできますか?
hyperlink - グーグルボット、偽のリンク
私はグーグルボットに少し問題があります、私はWindows Server 2009で動作しているサーバー、Workcubeと呼ばれるシステムを持っています、そしてそれはcoldfusionで動作します、ビルトインのエラーレポーターがあります、それで私はエラーのすべてのメッセージを受け取ります、特にそれは関係していますグーグルボット、存在しない偽のリンクに行こうとしている!リンクは次のようになります。
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=282&HIERARCHY=215.005&brand_id=hoyrrolmwdgldah
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=145&HIERARCHY=200.003&brand_id=hoyrrolmwdgldah
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=123&HIERARCHY=110.006&brand_id=xxblpflyevlitojg
- http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=1&HIERARCHY=100&brand_id=xxblpflyevlitojg
もちろん、brand_id=hoyrrolmwdgldahやbrand_id=xxblpflyevlitojgのような定義は偽ですが、何が問題になるのかわかりません。アドバイスが必要です!助けてくれてありがとう!;)
c# - c# Web ベースのクローラー
クローラーについていくつか質問があります。
純粋に Web 上で動作するクローラーを作成できますか? つまり、Web プロジェクトの管理ページから起動または停止できるクローラーです。
クローラーを作成するのに最も便利な言語は何ですか? c#で書く予定でした。
最も重要なのは、クローラーがどのように機能するかです。
HttpWebRequest
つまり、とを使用してそれらを作成することは知っています。HttpWebResponse
ページにアクセスするたびに、クローラーが戻ってきて、コードが結果を評価し、クローラーを他の Web サイトに送信するためのキューを作成すると思います。基本的にこの情報が本当なら、Web プロジェクトを使用してクローラーを作成することを考えると、ページを常にアップしておく必要があり、サーバーに対するクローラーの負荷はどれくらいになりますか? サーバーの速度が低下しますか、それとも比較的小さな作業ですか?
私は知っています、ここには多くの質問があり、私は本当に答えに感謝します:)