問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1706 参照

.net - .net マネージ コードを使用したコマンド ウィンドウのスクリーン スクレイピング

フレームワーク 2.0 の Process オブジェクトを使用してスクリプトとコマンド ライン プログラムを実行するプログラムを dot net で作成しています。プログラム内のプロセスのスクリーン バッファにアクセスできるようにしたいと考えています。これを調査したところ、コンソールの stdout および stderr バッファにアクセスする必要があるようです。マネージ コードを使用してこれを行う方法を知っている人はいますか?

コンソール画面から文字と属性データのブロックを読み取るには、タスクに接続されている Windows コンソールの AttachConsole と ReadConsoleOutput を使用する必要があると思います。これを行う必要があるのはマネージド コードです。

http://msdn.microsoft.com/en-us/library/ms684965(VS.85).aspxを参照してください。

0 投票する
3 に答える
955 参照

screen-scraping - 正規表現とは別にスクリーンスクレイピングを行う別の方法はありますか?

HTMLテーブルの別の行が追加、変更、または削除された場合にシステムトレイ通知を受け取るために、スクリーンスクレイピングを使用する個人的なプロジェクトを行っています。

思った前にこれをやったことがあります。正規表現を使ってみましょう。それだけですが、好奇心旺盛な人であるため、別のパラダイムを持ちながらも簡単に使用できる何かが他にあるのではないかと思いました。

私はDOMとX-Path、そしてすべてのxml'ishアプローチについて知っています。箱の外にあるものを探しています。さまざまなサイトを集約するプラグインシステムを作成できるように、一連のルールで定義することもできます。

0 投票する
9 に答える
1015 参照

rss - RSS を任意の Web サイトに追加しますか?

RSS 購読を任意の Web サイトに追加できる Web サイト/サービスはありますか?

これは私が働いている私の会社のためです。当社は、会社関連のニュースを表示する Web サイトを持っています。これらのニュースは外部機関から提供され、データベースに自動的に更新されます。私たちのウェブサイトは、ランダム/新しいニュースをピックアップして表示します。「RSS で購読」ボタンを Web サイトに追加することを検討しています。

0 投票する
9 に答える
25771 参照

javascript - Javascript をサポートするスクリーン スクレイピングに適したツールは何ですか?

Javascript をサポートして Web サイトのナビゲーションを自動化し、ページから HTML を収集できる優れたテスト スイートまたはツール セットはありますか?

もちろん、BeautifulSoup でそのまま HTML をスクレイピングすることもできます。しかし、これは Javascript を必要とするサイトには役に立ちません。:)

0 投票する
4 に答える
7149 参照

c# - C# を使用した Web ページの読み取りと投稿

Web ページに情報を入力し、リダイレクトされた次のページを読み、さらにアクションを実行できるようにする必要があるプロジェクトが進行中です。単純化された実世界の例は、google.com にアクセスし、検索基準として「コーディング トリック」を入力し、結果のページを読むようなものです。

http://www.csharp-station.com/HowTo/HttpWebFetch.aspxにリンクされているような小さなコーディング例は、Web ページの読み方を示していますが、フォームに情報を送信して続行することによって Web ページとやり取りする方法は示していません。次のページへ。

記録として、私は悪意のある製品やスパム関連の製品を構築していません。

では、最初にアクセスするために通常のブラウジングのいくつかのステップを必要とする Web ページを読むにはどうすればよいでしょうか?

0 投票する
6 に答える
9600 参照

html - RubyでWebページを解析する最良の方法は何ですか?

私は、Web ページからデータを引き出す簡単な方法について、rubyforge の XML および HTML ライブラリーを調べてきました。たとえば、stackoverflow でユーザー ページを解析したい場合、どうすればデータを使用可能な形式に変換できますか?

自分のユーザー ページを解析して、現在の評判スコアとバッジ リストを取得したいとします。ユーザー ページから取得したソースを xml に変換しようとしましたが、div がないために変換に失敗しました。文字列を比較して探しているテキストを見つけることができることはわかっていますが、これを行うにはもっと良い方法が必要です。

これを、コマンド ラインでユーザー データを吐き出す単純なスクリプトに組み込み、場合によってはそれを GUI アプリケーションに拡張したいと考えています。

0 投票する
9 に答える
894 参照

screen-scraping - スクリーンスクレイパーがサイトから特定のコンテンツを取得するのを防ぐための良い方法は何ですか?

この質問はほとんどのWeb2.0支持者にとって冒涜と見なされることは間違いありませんが、サイトの一部を他の人の任意のWebアグリゲーターに簡単に取り除いてほしくない場合もあると思います。少なくとも十分なので、彼らが本当にそれを望んでいるのなら、彼らは手でそれをするために窮地に立たされる必要があるでしょう。

私のアイデアは、テキストノードをそれぞれの段落内に通常表示される順序で絶対座標で配置し、それらのテキストノードをランダムに乱雑な順序でDOMに格納するスクリプトを作成することでした。もちろん、そのようなシステムを適切に機能させる(適切なテキストの折り返し、配置、スタイル設定など)ことは、自分のドキュメントレンダラーを最初から作成することとほとんど同じように見えます。

また、それをCAPTCHAのようなものと組み合わせて、スナップショットを見て文字などを識別できるスクリーンスクレイパーを妨げるように、テキストを微妙に混乱させることも考えていました。しかし、それはおそらくそれを考えすぎています。

うーん。誰かがこのようなことをするための良い方法をまだ考案しましたか?

0 投票する
9 に答える
22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

0 投票する
4 に答える
4842 参照

screen-scraping - Perl: 認証済み Web サイトからの HTML スクレイピング

HTML スクレイピングは、私が見た限りでは十分に文書化されており、その概念と実装を理解していますが、認証フォームの背後に隠れているコンテンツからスクレイピングするための最良の方法は何ですか. 合法的にアクセスできるコンテンツからのスクレイピングについて言及しているため、ログイン データを自動的に送信する方法を探しています。

私が考えることができるのは、プロキシを設定し、手動ログインからスループットを取得し、HTML スクレイピング実行の一部としてそのスループットをスプーフィングするスクリプトを設定することだけです。言語に関する限り、おそらく Perl で行われます。

誰かがこれを経験したことがありますか、それとも単に一般的な考えですか?

編集 これは以前に回答されていますが、.NET を使用しています。それは私がそれを行うべきだと思う方法を検証しますが、これを行うためのPerlスクリプトを持っている人はいますか?

0 投票する
9 に答える
15109 参照

php - Perl の WWW::Mechanize に相当する PHP はありますか?

Perl のWWW::Mechanizeに似た機能を持つライブラリを探していますが、PHP 用です。基本的に、単純な構文で HTTP GET および POST 要求を送信し、結果のページを解析して、すべてのフォームとそのフィールド、およびページ上のすべてのリンクを単純な形式で返すことができるようにする必要があります。

私は CURL について知っていますが、それは少し必要最小限であり、構文はかなり醜いです (大量のcurl_foo($curl_handle, ...)ステートメント

説明:

これまでの回答よりもレベルの高いものが欲しいです。たとえば、Perl では、次のようなことができます。

HTTP_Client、wget、または CURL を使用して同じことを行うのは大変な作業です。手動でページを解析して、リンクを見つけたり、フォーム URL を見つけたり、非表示のフィールドをすべて抽出したりする必要があります。私が PHP ソリューションを求めている理由は、私は Perl の経験がなく、多くの作業で必要なものを構築できる可能性があるためですが、PHP で上記を実行できれば、はるかに迅速になります。