python - urllib2 の最初のサイトのオンロードにある宛先 URL から html コンテンツを取得します

Question

urllib2 を使用して Web サイトの HTML コンテンツを取得しようとしています。このサイトには、このサイトでフォームを送信する body onload イベントがあるため、宛先サイトに移動して、必要な詳細をレンダリングします。

応答 = urllib2.urlopen('www.xyz.com?var=999-999')

www.xyz.com には、「www.abc.com」に投稿されたフォームが含まれています。このアクション値は、URL「var=999-999」のコンテンツによって異なります。つまり、var 値が「 888-888'

response.read()

これでも "www.xyz.com" の html コンテンツが得られますが、結果のアクション URL が必要です。最終ページから html コンテンツを取得するための提案はありますか?

前もって感謝します

score 1 · Accepted Answer

送信されたパラメーターを含め、その 2 番目のページへの呼び出しを把握する必要があるため、Python コードから自分で呼び出しを行うことができます。最善の方法は、Google Chrome ページインスペクターを開いた状態で最初のページに移動し、POST 呼び出しが行われる [ネットワーク] タブに移動することです。キャプチャされ、送信されたパラメータとすべてを確認できます。次に、urllib2 から同じ POST 呼び出しを再作成します。

python - urllib2 の最初のサイトのオンロードにある宛先 URL から html コンテンツを取得します

1 に答える 1

Related

Reference