問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
77 参照

windows - 画面上の一致基準の読み取りと応答

特定の画面イベントを見つけて応答できる Win32 システム用の何かを開発したいと考えています。たとえば、画面 (画面の 30x30 ピクセル部分) のビットマップ範囲 (100,100) から (130,130) が、指定された 30x30 ピクセルのベースラインと一致する場合、特定のアクションを実行します。

誰でも私にこれを始めさせることができますか? おそらく、これを簡単にするフレームワークがありますか? または私が使用できるパッケージ?それとも、サードパーティのユーティリティでしょうか?

0 投票する
7 に答える
6168 参照

c# - C# で Web ページにログインしてそのコンテンツを取得するにはどうすればよいですか?

C# で Web ページにログインしてそのコンテンツを取得するにはどうすればよいですか?

0 投票する
2 に答える
847 参照

javascript - スクリーン スクレイピング中に発生するアラートとエラーをバイパスする

他のサイトからスクレイピングしながら、サイトをスクリーン スクレイピングするための Web ページを作成しました。そのサイトに何らかのエラーがあるため、エラーがスローされます (オブジェクトが予期されます)。しかし、最終的には完全に結果が得られます。

私のプログラムでエラーが発生したことを示しています。これらのエラーを回避することは可能ですか (画面に表示せずに)。これらのエラーを表示したくありません。また、スクレイピング中に画面に表示せずにアラート ボックスをバイパスすることもできます。

私を案内してください。

0 投票する
2 に答える
181 参照

html - フォームから可能な URL を生成する

このページのフォームによって生成されるすべての URL (およびデータの取得) を取得しようとしています - http://www.vodafone.in/_layouts/servicecallertunes.aspxはほとんど成功していません。

Firefox 3.0.5、Ubuntu に HTTP ヘッダー (0.14) アドオンをインストールしました。しかし、結果の URL は非常に奇妙でかなり長いものになります。例えば:

(5000文字以上続く)

上記のフォームからデータを取得するためのプログラム可能なオプションは何ですか? 現在の私の唯一のアイデアは、可能なすべての URL を生成してからデータを取得することです。

前もって感謝します。バート J

0 投票する
8 に答える
3489 参照

regex - スクリーン スクレイピング: 正規表現または XQuery 式?

インタビューのクイズの質問に答えていましたが、質問はスクリーンスクレイピングをどのように行うかについてでした. つまり、情報を直接照会するより構造化された方法 (Web サービスなど) がないと仮定して、Web ページからコンテンツを選択することです。

私の解決策は、XQuery式を使用することでした。必要なコンテンツが HTML 階層のかなり深いところにあったため、式はかなり長くなりました。id属性を持つ要素を見つける前に、かなりの方法で祖先を検索する必要がありました。たとえば、製品ディメンションの Amazon.com ページをスクレイピングすると、次のようになります。

これはかなり厄介な表現ですが、Amazon が Web サービス API を提供するのはそのためです。とにかく、それはほんの一例です。質問は Amazon に関するものではなく、スクリーン スクレイピングに関するものです。

インタビュアーは私の解決策を気に入らなかった. Amazon によるページ デザインの変更により、XQuery 式の書き直しが必要になる可能性があるため、彼はそれが壊れやすいと考えました。適用対象のページ内のどこにも一致しない XQuery 式をデバッグするのは困難です。

私は彼の発言に反対しませんでしたが、彼の解決策が改善だとは思いませんでした. たとえば、Perl を使用すると、次のようになります。

私の反論は、これは Amazon が HTML コードを変更しても影響を受けやすいというものでした。HTML タグを大文字 ( <LI>) で綴ったり、CSS 属性を追加したり、ラベル「製品の寸法:」を「寸法:」に変更<b><span>たり、その他のさまざまな種類の変更を行ったりすることができます。私の言いたいことは、彼が私の XQuery ソリューションで指摘した弱点は、正規表現では解決できないということでした。

さらに、正規表現に十分なコンテキストを追加しない限り、正規表現は誤検知を検出する可能性があります。また、コメント、属性文字列、または CDATA セクション内にあるコンテンツと意図せず一致することもあります。

私の質問は、スクリーンスクレイピングを行うためにどのテクノロジーを使用していますか? なぜそのソリューションを選択したのですか?それを使用する説得力のある理由はありますか?それとも他のものを使用しないのですか?上に示したもの以外に 3 番目の選択肢はありますか?

PS: 議論のために、目的のコンテンツを取得するための Web サービス API やその他のより直接的な方法はないと仮定します。

0 投票する
7 に答える
8953 参照

perl - Yahoo グループをダウンロードするにはどうすればよいですか?

いくつかの Yahoo グループ (ファイル、写真、メッセージ、メンバーリスト) をダウンロードしたいのですが、これらのスクリプトを見つけました:

私は ActivePerl と必要なモジュールを CPAN からダウンロードしました (派手なものではなく、非常に簡単に見つけることができます)。それらをインストールすることはできましたが、スクリプトを実行すると、ログインに成功したことを示すエラーが表示されます。 244、2行目。」

Yahoo がページのレイアウトなどを変更したと推測していますが、スクリプトを自分で更新することはできません。私は Perl に関しては初心者で、Yahoo がページを生成する方法を理解していますが、基本的な C++ しか知りません。私は怠け者ではないことを述べたいと思います。自分で修正しようとしますが、ヒント、アドバイスなど、あなたの助けが必要です。

PS: 作者に連絡しましたが、スクリプトを更新する気はありません。

0 投票する
4 に答える
2119 参照

python - Beautiful Soup がこのページを切り詰めているのはなぜですか?

学校の図書館が購読しているリソースのリストから、リソース/データベース名と ID のリストを取得しようとしています。さまざまなリソースをリストしたページがあり、urllib2 を使用してページを取得できますが、そのページを BeautifulSoup に渡すと、リスト内の最初のリソースのエントリが終了する直前でツリーが切り捨てられます。問題は、リソースを検索セットに追加するために使用される画像リンクにあるようです。ここで話が途切れます。HTML は次のとおりです。

そして、ここに私のpythonコードがあります:

BeautifulSoup のバージョンでは、開始<a href...>は表示されますが、は表示され<img>ず、<a>はすぐに閉じられ、残りの開始タグも</html>.

これらの「セットに追加」画像で見られる唯一の特徴は、名前と id 属性を持つ唯一の画像であるということです。しかし、それによって BeautifulSoup がすぐに解析を停止する理由がわかりません。

注: 私は Python をまったく初めて使用しますが、問題なく理解できているようです。

ご協力ありがとうございました!

0 投票する
4 に答える
2384 参照

ruby - Mechanize を使用してページごとにデータを表示するスクリーン スクレイプ Web ページ

レコードをグリッドページごとに表示する Web ページ (Mechanize を使用) をスクリーンスクレイピングしようとしています。最初のページに表示された値を読み取ることができますが、次のページに移動して適切な値を読み取る必要があります。

私はすべてのリンクを通過することができますが、これを試してみると:-

その理由は、agent.click が URL を引数として想定しているためです。

ページごとに表示されているすべての値を読み取る方法はありますか? そうでない場合、href が URL ではなくポストバックである場合、どうすればそのようなクリック アクションを実行できますか??

0 投票する
4 に答える
2707 参照

ruby - グリッド ビューに表示されるデータを取得するための ASP.NET Web ページのスクリーン スクレイピング

RUBY を使用して、gridview を使用してデータを表示する Web ページ (asp.net で作成) をスクラップにしています。グリッドのページ 1 に表示されているデータを正常に読み取ることができますが、グリッドの次のページに移動してすべてのデータを読み取る方法がわかりません。

問題は、ページ番号のハイパーリンクが通常のハイパーリンク (URL 付き) ではなく、同じページへのポストバックを引き起こす JavaScript ハイパーリンクであることです..

ハイパーリンクの例:-