最終的にリダイレクトされた URL をスクレイピーで取得しようとしています。たとえば、アンカー タグに特定の形式がある場合:
<a href="http://www.example.com/index.php" class="FOO_X_Y_Z" />
次に、URL のリダイレクト先の URL を取得する必要があります (そうであれば、200 であれば OK)。たとえば、次のような適切なアンカー タグを取得します。
def parse (self, response)
hxs = HtmlXPathSelector (response);
anchors = hxs.select("//a[@class='FOO_X_Y_Z']/@href");
// Lets assume anchor contains the actual link (http://...)
for anchor in anchors:
final_url = get_final_url (anchor); // << I would need something like this
// Save final_url
したがって、訪問http://www.example.com/index.php
した場合、10回のリダイレクトが送信され、最終的に停止しますhttp://www.example.com/final.php
-これが私がget_final_url()
返す必要があるものです.
私は解決策への道をハックすることを考えましたが、スクレイピーがすでに提供されているかどうかを確認するためにここに尋ねていますか?