javascript - Python を使用して動的 Web サイトのソースを取得する (onclick をバイパスする)

Question

リンクをクリックすると動的に生成される Web サイトのソースを取得したいと考えています。リンク自体は以下の通りです。

<a onclick="function(); return false" href="#">Link</a>

これにより、動的に生成された Web サイト (urllib/2) を取得できる URL を直接クエリすることができなくなります。

上記の関数 (HTML) で生成された Web サイトのソースを Python 経由で取得するにはどうすればよいでしょうか? をバイパスする方法はありreturn false" href="#"ますか? またはonclick完全に、実際の URL を取得しますか?

上記の抽象的なリンクから Web サイトを生成する別の方法があり、Python で urllib から取得できるようにする方法がある場合は、その方法を参照してください。

編集：

上記のコードを一般化しましたが、使用するには特定の JavaScript をリバースエンジニアリングする必要があると言われました。

.js へのリンク - http://a.quizlet.com/j/english/create_setku80j8.js

リンクのあるサイトへのリンク:

<a onclick="importText(); return false" href="#">Bulk-import data</a>

サイトの実際の URL: http://quizlet.com/create_set/

上記の関連する .js の美化された JS: http://pastie.org/737042

score 2 · Accepted Answer

何が起こっているのかを解明するには、おそらく JavaScript をリバースエンジニアリングする必要があります。

問題のサイトとリンクを教えていただけますか?

score 1 · Accepted Answer

そのスクリプトには、コンテンツ生成コードやリンク追跡コードがすぐには表示されません。いくつかの div を表示するimportTextかどうかを切り替えるだけです。

特定のアクションを実行するために webapp が行う呼び出しを調査したい場合、ボットからそれらを再現するために、その実行中にブラウザーが行う HTTP 要求 (フォーム送信と AJAX 呼び出し) を調べるのがおそらく最善です。アクション。Firebug の「Net」パネルを使用して、Firefox の場合はこれを、IE の場合は Fiddler を使用できます。

javascript - Python を使用して動的 Web サイトのソースを取得する (onclick をバイパスする)

2 に答える 2

Related

Reference