4

私は現在、Web サイトにログインし、Watin を使用して一連の URL を経由して PDF ファイルをダウンロードする watin に基づく小さなアプリケーションを構築しています。

Web サイトでは、埋め込まれた HTML に PDF を読み込むために多くの JavaScript が使用されています。

プログラムは今のところ正常に動作しますが、watin はダウンロードを効率的に処理しないため、非常に低速です (Firefox のダウンロード システムを使用し、保存する前にファイル名をゆっくりと入力します。

Ajax サイトに対して同じサポートを提供できる Web スクレイピング用のより優れたフレームワークがあるかどうかを知りたいのですが、ファイルをダウンロードするためのより優れた/高速な方法です。

私はウェブをあちこち見て回り、セレンについて見つけましたが、ファイルのダウンロードに関しては、ワチンよりも効率的ではありません。

よろしくお願いします。

4

1 に答える 1

0

次の2つのAPIをメインエンジンとして使用して、GoogleChrome拡張機能を作成できます。

https://developer.chrome.com/extensions/webRequest.html いつ、どのように認証し、いつダウンロードを開始するかを知り、次のことを行います。

https://developer.chrome.com/extensions/downloads.html をクリックして、ファイルのダウンロードを開始します。

目標を達成するためにこれら2つのAPIに欠けているものは何でも、カスタムコンテンツスクリプト(拡張機能によって開かれるページに挿入されるjavascript)で補うことができ、たとえば、jqueryの.readyイベントにフックして初期化することができますスクレイピング。

ワティンのために書くことは、ブラウザに直接話すよりも抽象化の層であるため、これらは間違いなくワティンよりも高速です。

于 2012-11-12T20:42:17.550 に答える