私は、Google のインデックス作成にしばしば必要とされる品質を判断するための優れたオープン ソース ボットを探しています。
例えば
- 重複したタイトルを見つける
- 無効なリンク (jspider はこれを行いますが、もっと多くのリンクがこれを行うと思います)
- まったく同じページですが、URL が異なります
- など。ここで、etc は Google の品質要件に相当します。
私は、Google のインデックス作成にしばしば必要とされる品質を判断するための優れたオープン ソース ボットを探しています。
例えば
あなたの要件は非常に具体的であるため、あなたが望むことを正確に実行するオープンソース製品が存在する可能性はほとんどありません。
ただし、Webクローラーを構築するための多くのオープンソースフレームワークがあります。どちらを使用するかは、言語の好みによって異なります。
例えば:
通常、これらのフレームワークは、指定したルールに基づいてサイトのページをクロールおよびスクレイピングするためのクラスを提供しますが、独自のコードをフックして必要なデータを抽出するのはユーザーの責任です。
Google ウェブマスター ツールは (オンデマンド ボットではなく) ウェブベースのサービスであり、要求されたすべてのことを実行するわけではありませんが、その一部と、要求されていない多くのことを実行します。 、そして - Google からのもの - それは間違いなくあなたの奇妙な「etc、etc は Google の品質要件に等しい」と一致します。他のどこよりも優れています。