問題タブ [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby-on-rails - ActionView::MissingTemplate: テンプレートのホーム/インデックスがありません - Google Crawler
サイトで Google クローラーを起動すると、次のエラーが発生します。
エラーメッセージ:
ActionView::MissingTemplate: テンプレートのホーム/インデックス、{:locale=>[:fr]、:formats=>["image/*"]、:handlers=>[:erb、:builder、:haml のアプリケーション/インデックスがありません]}。検索先: * "/home/custodir/apps/default/releases/32/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/ckeditor-4.0.10 /app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/rails_admin-0.4.9/app/views" * "/home/custodir/apps/default/shared /bundle/ruby/2.0.0/gems/kaminari-0.15.1/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/devise-2.1.4/アプリ/ビュー」
SOに関する研究:
これら 3 つの関連する問題に注意しました: ActionView::MissingTemplate -> I'm not using HAML
ActionView::MissingTemplate: テンプレートがありません -> 関連なし
Googlebot が既存のテンプレートに対して欠落しているテンプレート エラーを受け取る-> gem "rails_fix_google_bot_accept" を試しても違いはありません。
詳細:
Errbit はエラーの可能性があると言っています: 88.4%
ActionView::MissingTemplate: テンプレートのホーム/インデックス、{:locale=>[:fr]、:formats=>["image/*"]、:handlers=>[:erb、:builder、:haml のアプリケーション/インデックスがありません]}。検索先: * "/home/custodir/apps/default/releases/30/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/ckeditor-4.0.10 /app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/rails_admin-0.4.9/app/views" * "/home/custodir/apps/default/shared /bundle/ruby/2.0.0/gems/kaminari-0.15.1/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/devise-2.1.4/アプリ/ビュー」
7.4%
ActionView::MissingTemplate: {:locale=>[:fr], :formats=>[:css], :handlers=>[:erb, :builder, :haml]} のテンプレート ホーム/インデックス、アプリケーション/インデックスがありません。検索先: * "/home/custodir/apps/default/releases/30/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/ckeditor-4.0.10 /app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/rails_admin-0.4.9/app/views" * "/home/custodir/apps/default/shared /bundle/ruby/2.0.0/gems/kaminari-0.15.1/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/devise-2.1.4/アプリ/ビュー」
2.5%
ActionView::MissingTemplate: テンプレートのホーム/インデックス、{:locale=>[:fr]、:formats=>["image/*"]、:handlers=>[:erb、:builder、:haml のアプリケーション/インデックスがありません]}。検索先: * "/home/custodir/apps/default/releases/32/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/ckeditor-4.0.10 /app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/rails_admin-0.4.9/app/views" * "/home/custodir/apps/default/shared /bundle/ruby/2.0.0/gems/kaminari-0.15.1/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/devise-2.1.4/アプリ/ビュー」
1.7%
ActionView::MissingTemplate: テンプレートのホーム/インデックス、{:locale=>[:fr]、:formats=>["image/*"]、:handlers=>[:erb、:builder、:haml のアプリケーション/インデックスがありません]}。検索先: * "/home/custodir/apps/default/releases/24/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/ckeditor-4.0.10 /app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/rails_admin-0.4.9/app/views" * "/home/custodir/apps/default/shared /bundle/ruby/2.0.0/gems/kaminari-0.15.1/app/views" * "/home/custodir/apps/default/shared/bundle/ruby/2.0.0/gems/devise-2.1.4/アプリ/ビュー」
完全なバックトレース: https://gist.github.com/YOUConsulting/a59e134a98b4d5bc1438
HTTP_ACCEPT:
画像/*
HTTP_USER_AGENT:
Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 Google favicon
パラメーター:
{ "アクション" => "インデックス", "コントローラ" => "ホーム" }
更新 1: HomeController インデックスを追加
java - Ajax アプリケーションのスナップショットを取得する HtmlUnit
基本的な GWT (Google Web Toolkit) Ajax アプリケーションを作成し、現在、ページを読み取るクローラーへのスナップショットを作成しようとしています。
HtmlUnit を使用して、クローラーに応答するサーブレットを作成します。
ブラウザを使用している場合、アプリケーションは完全に実行されます。しかし、HtmlUnit では、HTML にある特殊文字に関する多くのエラーがスローされます。しかし、これらの文字はコンテンツであり、HtmlUnit という理由だけで、現在機能している場合は、特別なコードに置き換えたくありません。(少なくとも、HtmlUnit を正しく使用しているかどうかを事前に確認する必要があります)

私が思うプロジェクトの目的であれば、HtmlUnitはページの文字セット情報を読み取ってブラウザとしてレンダリングする必要があると思います。
この問題に関する適切な情報が見つかりませんでした。これは HtmlUnit の制限ですか? この Java ライブラリを使用してスナップショットを作成するには、Web サイトのすべてのコンテンツを変更する必要がありますか?
これが私のコードです:
bots - ユーザー エージェントが Google ボットの場合にグラフを表示しないことの短所
Google のクロールを考慮する限り、グラフのページへの読み込みが少し遅くなります。グラフには SEO コンテンツが含まれていないため、Google ボットの場合はグラフを読み込まないようにユーザー エージェント チェックを入れることをお勧めします。
これを行う主な目的は、主にクロール速度を下げることです。
それに短所はありますか??
hadoop - Google クローラーの再クロール戦略
いくつかの巨大な検索エンジンの再クロール戦略がどのように機能するのか疑問に思っていました. たとえば、グーグルを考えてみましょう。Google が各 Web サイトの再クロールに動的間隔を使用していることはわかっています。Google の動的間隔に従って、10 分ごとに再クロールするサイトが 10 万あるとします。したがって、これらの 100000 サイトのクロール プロセスは 10 分未満で完了する必要があります。おそらく、次の 2 つの状況が考えられます。
1) Google ボットはこれらの各サイトの最初のページを取得し、このページの URL のリストを生成します。各 URL について、この URL が以前に取得されたかどうかを確認します。新しい場合は、新しいページを取得します。このプロセスは、クロールが終了するか、特定の深いしきい値まで続行されます。
2)Googleボットはすべてのページを再度取得します(更新されたかどうかに関係なく)
Google が最初の戦略を使用すると仮定すると、URL は同じでコンテンツが更新されたページがどのようにクロールされ、インデックスに登録されるのでしょうか? Google が 2 番目のページを使用するとしたら、これらすべてのページを 10 分以内に再クロールするにはどうすればよいでしょうか? 他のウェブページはどうですか?おそらく 60 億以上の Web ページが利用可能であり、これらすべてのページをタイムリーに再クロールする方法を教えてください。Hadoopインフラストラクチャでnutchやsolrなどの新しいテクノロジーを使用することは不可能だと本当に思います.
よろしく。
gwt - Ajax ベースの Googlebot クロール
先週公開したサイト(ワンページサイト)http://www.itslayer.com/
Google ウェブマスター ツールでこれをテストする際に問題が発生しています。ドキュメントに従ってウェブサイトを開発しました - https://developers.google.com/webmasters/ajax-crawling/docs/getting-started
Googlebot を使用して Ajax ベースの Web サイトをテストする方法と、実装が正しいかどうかをお知らせください。
提案していただきありがとうございます。提案してください。
php - cgi-bin にアクセスできないと言う Google ウェブマスター
私はウェブサイトFlamingone.comを持っています。数日前に Google ウェブマスターにウェブサイトを登録しました。今日、Google ウェブマスターが私のウェブサイトについて何を準備しているかを確認しました。グーグルは言った、
「Googlebot はあなたのURL (/cgi-bin) (flamingone.com/cgi-bin) をクロールできませんでした。サーバーがページへのアクセスに認証を必要としているか、Googlebot がサイトにアクセスするのをブロックしているためです。
しかし、cgi-bin という名前のフォルダーも robots.txt もありません。404 (My 404.php ページ) が発生するはずです。アクセスが拒否されたと表示されるのはなぜですか?
indexing - 空の内部検索結果でソフト 404 が発生します。どうすればよいですか?
記事によると: https://support.google.com/webmasters/answer/181708?hl=en ソフト 404 が表示されるのは、私の Web サイトの検索基準の一部にアイテムが含まれていないためです。 Google さん、これらのエラーがウェブマスターのクロール エラーに表示されないようにし、サイトのインデックス作成速度に影響を与えないようにするには、どうすればよいでしょうか?! 404 エラー コードを返す必要がありますか? 検索の組み合わせをすべて満たすようにもっと取り組むべきですか、それとも無視するべきですか?!
javascript - Angularjs コーディング設定の問い合わせ: div で ng-clicks をコーディングするのと、Google 検索 seo にアンカーを使用するのは悪いことですか?
CSS を使用すると、ユーザーがリスト アイテム全体とその中のアンカーをクリックできるようにすることで、より良いルック、フィール、機能を得ることができます。ホバーなどは見栄えが良くなり、アンカータグは上下のパディングで気難しいです。ただし、Google 検索のクロール機能を犠牲にしたくはありません。Angular の時流に乗ったばかりですが、過去の経験から、アンカー タグがサイトの残りの部分の鍵であることを知っています。Angulars ルーティングはこれを処理しますか? ヘルプを追加しrel="me"ますか?
私の質問に関係なく-Googleクロールにはどちらが適していますか:
また:
またはそれはまったく問題ですか?
その他のコード:
ajax - Google クローラー Ajax/Php ページ
私が持っているもの
まず第一に、私が自分のサイトを設定した方法は、ユーザーがメイン画面に移動することです。リンク付きのドロップダウン メニューがあり、リンクをクリックすると、2 つの AJAX 呼び出しを送信する関数に整数値が送信されます。 1 つはデータベースに新しいタイトルを照会し、それを Json エンコードして返します。もう 1 つは同じことを関連データに対して行います。これが返され、大きな div がクリアされ、新しいデータを保持する多数の dom 要素が作成されます。
私が必要なもの
#! を使用して URL を既に書き換えています。ハッシュバン。クライアント側では、ハッシュが変更されると、パラメーターが解析され、AJAX 経由で通常どおり実行される PHP コードに送信されます。問題は、HTML のスナップショットを提供する必要があることです。私がオンラインで見つけた例の 90% は、PHP コードで DOM を作成し、完成した HTML をエコー バックするだけです。HTML DOM の作成に使用するコードはかなり複雑なので、JavaScript 側で行います。そのため、ヘッドレス ブラウザの使用を推奨しています。しかし、私は共有ホスティング サービスを利用しているので、ヘッドレス ブラウザは使用できないと思います。また、php/java ブリッジを使用して Java コードを php に接続し、スナップショットを作成して、Google に返す方法がわかりません。 .
編集: .htaccess で _escaped_fragment_ URL を #! URL?