3

PyQtを使用してWebページのhtmlをロードしようとしています。これを操作して、Webスクレイピングのためにページにフィードバックすることができます。私は基本的に、Javascriptが含まれているページにログインし、ダウンロードするドキュメントを検索して(正しい名前の横にあるチェックボックスを選択して)、別のページをポップアップするダウンロードボタンをクリックしようとしています。

誰かが私が使用する機能を知っていますか?クラスに入らずにこれについて話し合う方法はありますか?(クラスについての私の理解はそれができるほどよくありません、私は学ぼうとしています、私はまだ初心者のようなものです)。

これをうまく説明できなかったらごめんなさい。これを行うためにPyQtまたはPySideのいずれかを使用しようとしています。

4

2 に答える 2

2

pyqt / pysideを使用してページを読み込み、JavaScriptが実行されるのを待ってから、結果のHTMLを解析して目的のコンテンツを探します。

スクリプトの例を次に示します
。http ://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

于 2011-05-17T22:24:09.090 に答える
0

あなたは物事がどこで起こるかについて混乱していると思うので、あなたが何をしようとしているのかは私にはわかりませんが、推測してみましょう。

選択ページを呼び出し、ボックスにチェックマークを付け、ボタンをクリックして、結果のダウンロードを処理する必要があるWebサイトの使用を自動化する必要があると思います。

サイトをテストするために数回だけ実行したい場合は、watirとSeleniumをチェックしてください。

本当にPythonでコーディングしたい場合は、チェックボックスで送信されたページを十分に理解して、フォームを見つけて抽出し、そのフォームのフィールドからPOSTを作成して、にPOSTを送信する必要があります。ダウンロードしてください。ページにjavascriptが含まれている場合、これにより、有効な投稿の作成が追加/削除/禁止される可能性があります。

次に、結果のダウンロードをキャッチして保存する必要があります。

また、サイトがHTMLページを変更するたびに、コードがパニックに変更されます。

私はあなたにその仕事を少しうらやましくない。

于 2011-05-17T20:08:49.110 に答える