ajax - アーカイブページのGoogleでの重複コンテンツのヒットを回避しますか？

Question

私のサイト（http://www.correlated.org ）の各ブログ投稿は、独自のパーマリンクされたURLにアーカイブされています。

これらのアーカイブされた各ページには、アーカイブされた投稿だけでなく、それ以前に公開された10件の投稿も表示して、ブログが提供するコンテンツの種類をよりよく理解できるようにしたいと思います。

私の懸念は、各投稿が複数のページに表示されるため、Googleや他の検索エンジンがそれらの他の投稿を重複コンテンツと見なすことです。

私の別のブログ（http://coding.pressbin.com）で、以前の投稿をAJAX呼び出しとしてロードすることでこれを回避しようとしましたが、もっと簡単な方法があるかどうか疑問に思っています。

ページの特定のセクションにインデックスを付けるべきではないことを検索エンジンに通知する方法はありますか？

そうでない場合、私がやろうとしていることを行うためのAJAX呼び出しよりも簡単な方法はありますか？

score 5 · Accepted Answer

警告：これは実際にはテストされていませんが、GoogleWebmasterCentralブログとschema.orgドキュメントを読んだことに基づいて機能するはずです。ともかく...

これは、マイクロデータを使用してコンテンツを構造化するための良いユースケースのようです。これには、次のように、コンテンツをArticleタイプのリッチスニペットとしてマークアップすることが含まれます。

   <div itemscope itemtype="http://schema.org/Article" class="item first">
      <h3 itemprop="name">August 13's correlation</h3>        
      <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p>
      <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p>
      <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p>  
   </div>

pagescope、itemtype、itempropを使用して、ページ上の各記事を定義していることに注意してください。

現在、Google、Yahoo、Bingでサポートされているschema.orgitemprop="url"によると、検索エンジンは上記の正規URLを尊重する必要があります。

正規の参照

通常、リンクは要素を使用して指定されます。たとえば、次のHTMLは、Catcher intheRyeという本のWikipediaページにリンクしています。
<div itemscope itemtype="http://schema.org/Book">
  <span itemprop="name">The Catcher in the Rye</span>—
  by <span itemprop="author">J.D. Salinger</a>
  Here is the book's <a itemprop="url"
href ="http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye">Wikipediaページ。

http://schema.org/docs/gs.html#advanced_enum

したがって、このようにマークアップすると、Googleは、どのコンテンツがどの正規URLに属しているかを正しく割り当て、それに応じてSERPで重み付けできるようになります。

コンテンツのマークアップが完了したら、Rich Snippetsテストツールを使用してテストできます。これにより、ページを本番環境に移行する前に、Googleがページについてどのように扱っているかがわかります。

ps重複コンテンツのペナルティを回避するためにできる最も重要なことは、パーマリンクページのタイトルを修正することです。現在、彼らはすべて「相関関係-驚くべき相関関係を発見する」と読んでいます。これにより、ランキングが大ヒットします。

score 0 · Accepted Answer

恐れ入りますが、検索エンジンにWebページの特定のインデックスを作成しないように指示することはできないと思います（たとえば、HTMLソースのdiv）。これに対する解決策は、インデックスを作成する検索エンジンではないコンテンツにIframeを使用することです。そのため、適切なタグDisallowが付いたrobot.textファイルを使用して、Iframeにリンクされた特定のファイルへのアクセスを拒否します。

score 0 · Accepted Answer

Googleにウェブページの一部を無視するように指示することはできませんが、検索エンジンがそれを見つけられないような方法でそのコンテンツを提供することはできます。そのコンテンツをに配置する<iframe>か、JavaScriptを介して提供することができます。

これらの2つのアプローチはハック的であるため、私は好きではありません。とにかくすべてのコンテンツが複製されるので、あなたの最善の策は検索エンジンからそれらのページを完全にブロックすることです。あなたはそれをいくつかの方法で達成することができます：

robots.txtを使用してアーカイブをブロックします。のアーカイブが独自のディレクトリにある場合は、ディレクトリ全体を簡単にブロックできます。個々のファイルをブロックし、ワイルドカードを使用してパターンを照合することもできます。
<META NAME="ROBOTS" CONTENT="noindex">タグを使用して、各ページのインデックス作成をブロックします。
HTTPヘッダーを使用して、X-Robots-Tag: noindex各ページが検索エンジンによってインデックス付けされないようにブロックします。これは、実質的には `タグを使用する場合と同じですが、.htaccessファイルで使用してディレクトリ全体に適用できるため、実装が簡単になります。

ajax - アーカイブページのGoogleでの重複コンテンツのヒットを回避しますか？

3 に答える 3

Related

Reference