0

Webサイトをスクレイプしようとしていますが、埋め込み要素を取得する必要がありますが、Pythonとlxml.htmlを使用しているため、Webサイトは、Flashがインストールされていないと正確に判断し、埋め込み要素を表示する代わりに、私にこれを示しています:

<div>
    <font>
        <u>
            <b>
                <a href="http://get.adobe.com/flashplayer/">
                ATTENTION:<br>This video will not play. You currently do not have Adobe Flash installed on this computer. Please click here to download it (it's free!)
                </a>
            </b>
        </u>
    </font>
</div>

明らかにそれは問題なので、正しい要素を取得する目的で、ブラウザをだまして、Flashがインストールされていなくても、Flashがインストールされていると思わせることができるかどうか疑問に思います。

誰かが助けてくれることを願っています!

4

2 に答える 2

0

次のブログ投稿があなたの質問にうまく答えていると思います。著者には、Python を使用して Flash コンテンツをスクレイピングするという同じニーズがありました。そして同じ問題が出てきました。彼は、ブラウザをインスタンス化し (画面に表示さえしないメモリ内のブラウザであっても)、その出力をスクレイピングする必要があることに気付きました。これはあなたが必要とするものへの成功したアプローチになると思います.彼はそれを理解しやすくしています.

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

于 2012-07-04T00:23:13.570 に答える
0

JavaScript によって生成されたコンテンツを取得するには、Selenium を試すこともできます

于 2012-07-04T00:26:38.593 に答える