python - URLの＃タグの後のコンテンツを無視するScrapy

Question

こんにちは私は以下のようなURlを持つサイトをスクレイピングしています

http://www.example.com/categories-Mobile-Phones.aspx#RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03

私はこれを入れstart_urlて応答を要求しましたが、以下のように応答を受け取りました

<200 http://www.example.com/categories-Mobile-Phones.aspx>

つまり、後のコンテンツを単に無視するhash tagので、いくつかの投稿を読んで、ハッシュタグ付きのURLをリクエストすると、サーバーがハッシュフラグメントを単に無視することを知りました。つまり、ハッシュフラグメントを使用して追加情報をロードします。 ajaxまたはjavascriptrequests.so私は以下のようにURLstart_urlをexclamatory mark(!)afterに置き換えました# tag

http://www.example.com/categories-Mobile-Phones.aspx#!RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03

そして今、出力は

<GET http://www.example.com/categories-Mobile-Phones.aspx?_escaped_fragment_=RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03

私はこの投稿を読んでこれhttps://developers.google.com/webmasters/ajax-crawling/docs/getting-startedを行いました、この投稿の概念によれば、ハッシュフラグメントを無視してページを完全に解析するために、出力URLを?_escaped_fragment_=含むURL （つまり元のURL）に変換する必要があります。変換方法#それ。

うまく説明できれば幸いです。そうでない場合は、訂正して、URLのハッシュフラグメントを無視しないようにする方法の概念を教えてください。

前もって感謝します...............

score 0 · Accepted Answer

それは問題ではありません。ハッシュの有無にかかわらず、URIはまったく同じページを参照します。

ハッシュの後のものはフラグメント識別子です。ブラウザはそれを使用して、ページをページの特定の部分にスクロールします。

このような...

http://www.w3.org/TR/html4/intro/intro.html#h-2.1.2

...この...

http://www.w3.org/TR/html4/intro/intro.html

..両方とも同じページを取得します。前者は単にページのどこから読み始めるかを教えてくれます。

編集：

start_urls = ['themobilestore.in/home-mobiles-&-tablet/?page=1'、'themobilestore.in/home-mobiles-&-tablet/?page=2'、]

python - URLの＃タグの後のコンテンツを無視するScrapy

1 に答える 1

Related

Reference