こんにちは私は以下のようなURlを持つサイトをスクレイピングしています
http://www.example.com/categories-Mobile-Phones.aspx#RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03
私はこれを入れstart_url
て応答を要求しましたが、以下のように応答を受け取りました
<200 http://www.example.com/categories-Mobile-Phones.aspx>
つまり、後のコンテンツを単に無視するhash tag
ので、いくつかの投稿を読んで、ハッシュタグ付きのURLをリクエストすると、サーバーがハッシュフラグメントを単に無視することを知りました。つまり、ハッシュフラグメントを使用して追加情報をロードします。 ajaxまたはjavascriptrequests.so私は以下のようにURLstart_url
をexclamatory mark(!)
afterに置き換えました# tag
http://www.example.com/categories-Mobile-Phones.aspx#!RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03
そして今、出力は
<GET http://www.example.com/categories-Mobile-Phones.aspx?_escaped_fragment_=RSS=pgZZ1QQdivZZctl00_ContentPlaceHolder1_ctl00_ctl03
私はこの投稿を読んでこれhttps://developers.google.com/webmasters/ajax-crawling/docs/getting-started
を行いました、この投稿の概念によれば、ハッシュフラグメントを無視してページを完全に解析するために、出力URLを?_escaped_fragment_=
含むURL (つまり元のURL)に変換する必要があります。変換方法#
それ。
うまく説明できれば幸いです。そうでない場合は、訂正して、URLのハッシュフラグメントを無視しないようにする方法の概念を教えてください。
前もって感謝します...............