問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
10 に答える
80310 参照

php - PHPでWebスクレイパーを実装するには?

Web スクレイピングに役立つ組み込みの PHP 関数は何ですか? PHP を使用した Web スクレイピングの速度を上げるための優れたリソース (Web または印刷物) は何ですか?

0 投票する
5 に答える
67110 参照

java - JavaでHTMLを取得する方法

外部ライブラリを使用せずに、Web サイトの HTML コンテンツを文字列に取得する最も簡単な方法は何ですか?

0 投票する
7 に答える
45220 参照

php - PHP での HTML スクレイピング

正規表現を使用して PHP で HTML スクレイピングを行っています。これは機能しますが、結果は扱いにくく壊れやすいものになります。より堅牢なソリューションを提供するパッケージを使用した人はいますか? 構成主導のソリューションが理想的ですが、私はうるさいわけではありません。

0 投票する
4 に答える
6442 参照

vb.net - Webページからアドレス情報を抽出する

Webページを取得して、ページからアドレス情報を抽出する必要があります。他のものより簡単なものもあります。これを実行するのに役立つFirefoxプラグイン、Windowsアプリ、またはVB.NETコードを探しています。

理想的には、管理者(ASP.NET/VB.NET)にURLを入力すると、ページがスクラップされ、グリッドに配置できるデータセットが返されるWebページが必要です。

0 投票する
4 に答える
3589 参照

.net - 安全なサイトでwebclientを使用するにはどうすればよいですか?

ログインフォームを使用しているWebサイトに関連するプロセスを自動化する必要があります。ログインページに続くページでいくつかのデータをキャプチャする必要があります。

通常のページをスクリーンスクレイピングする方法は知っていますが、安全なサイトの背後にあるページは知りません。

  1. これは.NETWebClientクラスで実行できますか?
    • 自動的にログインするにはどうすればよいですか?
    • 他のページにログインし続けるにはどうすればよいですか?
0 投票する
7 に答える
26468 参照

python - HTML 解析用の Python 正規表現 (BeautifulSoup)

HTML の非表示の入力フィールドの値を取得したいと考えています。

fooIdHTML の行が次の形式に従っていることがわかっている場合、 の値を返す正規表現を Python で記述したいと考えています。

値の HTML を解析するために、誰かが Python で例を提供できますか?

0 投票する
5 に答える
6904 参照

asp.net - ASPX を HTML にエクスポート

CMSを構築しています。サイトはユーザーによって aspx ページで構築および管理されますが、HTML の静的サイトを作成したいと考えています。ここで見つけたコードを使用して、Aspx ページの Render メソッドをオーバーロードし、HTML 文字列をファイルに書き込みます。これは単一のページでは問題なく機能しますが、CMS では、作成者がシステムで何かを編集する前であっても、最初からサイト用にいくつかの HTML ページを自動的に作成したいと考えています。これを行う方法を知っている人はいますか?

0 投票する
8 に答える
1102 参照

asp.net - ログインの背後にあるページから HTML を取得する

この質問は、ASPX ページからの HTML の取得に関する以前の質問のフォローアップです。webclient オブジェクトを使ってみることにしましたが、問題はログインが必要なため、ログイン ページの HTML を取得することです。webclient オブジェクトを使用して「ログイン」を試みました。

しかし、私はまだログインページを常に取得しています。ユーザー名情報が Cookie に保存されないことはわかっています。何か間違っているか、重要な部分を抜けているに違いありません。誰がそれが何であるか知っていますか?

0 投票する
8 に答える
4140 参照

html - HTML テーブルをデータベースに保存する

HTML テーブルをスクレイピングして、そのデータをデータベースに保存しようとしています。このプログラムに取り組む際に役立つと思われる戦略/ソリューションは何ですか。

私は Java と PHP に最も慣れていますが、実際にはどの言語でも解決策があれば役に立ちます。

編集: 詳細については、UTA (ソルトレイクのバス システム) のウェブサイトでバスの時刻表を提供しています。各スケジュールは、ヘッダーに駅があり、行に出発時刻があるテーブルに表示されます。スケジュールを調べて、テーブルに情報を保存し、クエリを実行できるようにしたいと考えています。

スケジュールの起点はこちら

0 投票する
4 に答える
2665 参照

css - すべてのメディアを含む公開 HTML ページを保存し、構造を維持する方法

HTML モックアップをスクレイピングしてページの完全性を維持できるLinux application (または Firefox 拡張機能)を探しています。

Firefox はほぼ完璧に機能しますが、CSS で参照されている画像を取得しません。

Firefox の Scrapbook 拡張機能はすべてを取得しますが、ディレクトリ構造をフラット化します。

すべてのフォルダがページの子になったとしても、まったく気にしませんindex