1

Google Mini 検索アプライアンスによってインデックス付けされたページを含む Drupal サイトがあります。

週の初めに、多数のリンクがインデックス済みとしてマークされていることに気付きましたが、同じページに戻る「このページを印刷する」リンクがあり、rel="nofollow" が設定されていたため、除外されていました。nofollow を削除し、2 日前に GSA にサイトの再インデックスを依頼しました。

現在、問題のページは GSA 内でインデックス登録済みとしてマークされていますが、サイトの検索結果には表示されていません。

/search/google_appliance/TERM で検索しても表示されません。他の用語を検索すると、それらが表示されます。つまり、GSA が機能していることがわかります。

/search/node/TERM [Drupal デフォルト検索] で検索すると、異なる Drupal の結果が得られます [用語を含むページが表示されます]。これにより、GSA に到達していることを確信できます。

新しくインデックスに登録されたページが GSA 検索に表示されない理由について何か考えはありますか?

編集/解決済み: いくつかの問題がありました。以前は、検索で xslt を使用して、ページの表示方法と、送信を押したときにクエリが送信されたページの場所 (サイトの送信ボタンではなく、アプライアンス上) を処理していました。クエリ文字列は古い形式でサイトに渡され、サイトは 404 を返しました (bookstore.site.com と origin.site.com を検索した場合と同じです)。検索に関係するものよりも、「ここからそこにたどり着けない」ような問題です。xslt を削除したので、デフォルトの Google ルック アンド フィールが使用され、アプライアンスのデータベースに対して適切で一般的な検索を実行できるようになりました。

ただし、Drupal モジュールが解析できず、ログが simplexml_load_string() [function.simplexml-load-string]: ^ in \sites\all\modules\google_appliance\GoogleMini でヒットするという奇妙な検索結果が返されました。 318行目の.php。

いくつかのクエリ文字列変数を試し、出力エンコーディングを設定する行をコメントアウトすると、すべてが機能するようです。問題の行は google_appliance.module の 322 行目です。

$gm->setOutputEncoding('utf8');
4

2 に答える 2

2

私はあなたの質問が正しかったと 100% 確信しているわけではありません。私はここでそれを仮定しています:

  1. GSA がインデックスに登録していないのは、「このページを印刷する」というリンクがあるページです (これらのページがインデックスされていて、そのようなページの印刷可能なバージョンのインデックス登録に問題があると仮定するのではなく)。
  2. 次のビットは、他の用語を含む他のページを見つけることができることを意味します。別の用語で検索すると、欠落しているページを見つけることができるわけではありません。

/search/google_appliance/TERM で検索しても表示されません。他の用語を検索すると、それらが表示されます。つまり、GSAが機能していることを知っています

私があなたの質問を誤解した場合は、私を修正してください。間違っている場合は、使用している用語の詳細を教えてください。

ただし、これは問題の原因を特定するために II が行うことです (ただし、これらをこの正確な順序で行うことはおそらくありません)。

  1. 奇妙な動作を引き起こす「悪いページ」(もしあれば)の特徴的な要素は何かを理解しようとします。あなたはすでにこの掘り下げのいくつかを行っており、犯人は印刷リンクであると考えているようです. リンクを完全に削除してこれを確認し、この場合にページが正しくインデックス化されるかどうかを確認しましたか?
  2. インデックス作成を妨げる可能性のあるルールがあるかどうかrobots.txtを確認します。GSA はそのファイルを尊重するため、たとえばページの URL が で始まる場合/admin/、それらのページはスキップされます。
  3. のページに、ビューを制限する何らかのアクセス制御があるかどうかを確認します。この場合、GSA がそのように設定されていることを確認します。(もちろん、公開されていないページにも同じことが当てはまります。外部アプリケーションでそれらを表示またはインデックス化するには、管理者である必要があります)。
  4. sitemap.xmlGSAがインデックス作成に使用しているかどうかはわかりません。ただし、drupal で生成されたsitemap.xmlファイル (存在する場合)を調べて、優先度が 0 に設定されているなどの明白なエラーをチェックします。そのようなファイルがなく、GSA がそれを使用していることがわかっている場合は、適切なモジュールを使用してファイルを生成し、これで問題が解決するかどうかを確認します。
  5. GSA によって生成されたサイトマップを調べて、あからさまな異常も示されているかどうかを確認します。これは明らかに問題ではありませんが、どのような種類の自明の異常でも、正しい方向に進む可能性があります。
  6. 問題がページ構造に固有のものではない場合 (このリストのポイント 1 を参照) 、エラーを生成する非構造要素を体系的に検索し始めます。別のテーマで問題が解決しますか。特定のモジュールを無効にすることで問題は解決しますか? (おそらく問題はメタタグにあるのでしょうか?「このページを印刷する」モジュールにあるのでしょうか?モジュールがそれらのページの言語をサイトの他の部分とは異なる言語に設定しているでしょうか?)。これらはすべて可能性が低いですが、大ハンマーで GSA を粉砕する前に、それも試してみます。
  7. GSA のすべての設定(おそらく N 回目)実行します。

上記のすべて - 機会があれば - 仲間と一緒にやります。彼または彼女は、問題の原因として「人的要因」を排除するのを助けることができます (つまり、構成パネルの小さなチェックボックスは、彼/彼女にとって非常に重要ですが、これまで気付かなかった...)。

何が起こっているのかについてさらにヒントを見つけることができた場合は、ここに報告してください. それが drupal 側の問題である場合は、SO にぶら下がっている優れた「drupalists」の私または他の誰かが助けてくれると確信しています。

チッ!

于 2009-12-02T21:14:53.073 に答える
0

私は最近、似たようなものに苦労しました。

ここでの1つの提案-検索語があることがわかっているページを選択してください。ブラウザでページのHTMLを開き、その用語が表示されていることを確認します。絶対に。

次に、そのURLを取得し、クロールの開始ページの1つとして配置します。

クロール後、検索診断に移動し、そのページにドリルダウンします。あなたはそれが這うのを見ますか?さて、すばらしいです。次に、ページのキャッシュを確認してください。「このページへのリンク」のすぐ下には、「キャッシュバージョン」と呼ばれるハイパーリンクがあります。それを見てください。あなたは驚きに満ちているかもしれません!私は確かにそうだった。

于 2009-12-07T15:51:57.143 に答える