web-crawler - クローラーは Web サイトのルートから Robots.txt ファイルを取得しませんが、Web のルートから取得します

Question

robots.txt を使用して、クローラーが Web ルート (私の場合は /var/www/) をクロールするのをブロックしました。/var/www/ に robots.txt があり、その中に次の行があります: Disallow /

ここで、Web ルート (/var/www/mysite.com) のサブディレクトリの 1 つがクローラーによってクロールされる必要があります。そのディレクトリに robots.txt を追加し、apache に virtualhost を追加して、この mysite.com をクロールできるようにしました。しかし、クローラーはまだ (/var/www/mysite.com) ではなく、私の Web ルート (/var/www) から robots.txt を取得しています。

助けてくれてありがとう。

score 1 · Accepted Answer

robots.txtルートディレクトリにあるものだけを指定します。

詳細については、公式ドキュメントを参照してください。

どこに置くか

簡単に言えば、Web サーバーの最上位ディレクトリにあります。

より長い答え：

ロボットが URL の「/robots.txt」ファイルを探すとき、URL からパスコンポーネント (最初の 1 つのスラッシュからすべて) を取り除き、その場所に「/robots.txt」を配置します。

たとえば、" http://www.example.com/shop/index.htmlの場合、"/shop/index.html" が削除され、"/robots.txt" に置き換えられ、最終的に次のようになります。 " http://www.example.com/robots.txt ".

また、同じページ (下部) から、特定の Web ページのみを許可する例を示します。

1 つを除くすべてのファイルを除外するには

「許可」フィールドがないため、これは現在、少し厄介です。

簡単な方法は、禁止するすべてのファイルを別のディレクトリ (「stuff」など) に配置し、その 1 つのファイルをこのディレクトリの上のレベルに残すことです。

User-agent: *
Disallow: /~joe/stuff/

または、許可されていないすべてのページを明示的に禁止することもできます。

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html

web-crawler - クローラーは Web サイトのルートから Robots.txt ファイルを取得しませんが、Web のルートから取得します

1 に答える 1

どこに置くか

1 つを除くすべてのファイルを除外するには

Related

Reference