問題タブ [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPでWebスクレイパーを実装するには?
Web スクレイピングに役立つ組み込みの PHP 関数は何ですか? PHP を使用した Web スクレイピングの速度を上げるための優れたリソース (Web または印刷物) は何ですか?
java - JavaでHTMLを取得する方法
外部ライブラリを使用せずに、Web サイトの HTML コンテンツを文字列に取得する最も簡単な方法は何ですか?
php - PHP での HTML スクレイピング
正規表現を使用して PHP で HTML スクレイピングを行っています。これは機能しますが、結果は扱いにくく壊れやすいものになります。より堅牢なソリューションを提供するパッケージを使用した人はいますか? 構成主導のソリューションが理想的ですが、私はうるさいわけではありません。
vb.net - Webページからアドレス情報を抽出する
Webページを取得して、ページからアドレス情報を抽出する必要があります。他のものより簡単なものもあります。これを実行するのに役立つFirefoxプラグイン、Windowsアプリ、またはVB.NETコードを探しています。
理想的には、管理者(ASP.NET/VB.NET)にURLを入力すると、ページがスクラップされ、グリッドに配置できるデータセットが返されるWebページが必要です。
.net - 安全なサイトでwebclientを使用するにはどうすればよいですか?
ログインフォームを使用しているWebサイトに関連するプロセスを自動化する必要があります。ログインページに続くページでいくつかのデータをキャプチャする必要があります。
通常のページをスクリーンスクレイピングする方法は知っていますが、安全なサイトの背後にあるページは知りません。
- これは.NETWebClientクラスで実行できますか?
- 自動的にログインするにはどうすればよいですか?
- 他のページにログインし続けるにはどうすればよいですか?
python - HTML 解析用の Python 正規表現 (BeautifulSoup)
HTML の非表示の入力フィールドの値を取得したいと考えています。
fooId
HTML の行が次の形式に従っていることがわかっている場合、 の値を返す正規表現を Python で記述したいと考えています。
値の HTML を解析するために、誰かが Python で例を提供できますか?
asp.net - ASPX を HTML にエクスポート
CMSを構築しています。サイトはユーザーによって aspx ページで構築および管理されますが、HTML の静的サイトを作成したいと考えています。ここで見つけたコードを使用して、Aspx ページの Render メソッドをオーバーロードし、HTML 文字列をファイルに書き込みます。これは単一のページでは問題なく機能しますが、CMS では、作成者がシステムで何かを編集する前であっても、最初からサイト用にいくつかの HTML ページを自動的に作成したいと考えています。これを行う方法を知っている人はいますか?
asp.net - ログインの背後にあるページから HTML を取得する
この質問は、ASPX ページからの HTML の取得に関する以前の質問のフォローアップです。webclient オブジェクトを使ってみることにしましたが、問題はログインが必要なため、ログイン ページの HTML を取得することです。webclient オブジェクトを使用して「ログイン」を試みました。
しかし、私はまだログインページを常に取得しています。ユーザー名情報が Cookie に保存されないことはわかっています。何か間違っているか、重要な部分を抜けているに違いありません。誰がそれが何であるか知っていますか?
html - HTML テーブルをデータベースに保存する
HTML テーブルをスクレイピングして、そのデータをデータベースに保存しようとしています。このプログラムに取り組む際に役立つと思われる戦略/ソリューションは何ですか。
私は Java と PHP に最も慣れていますが、実際にはどの言語でも解決策があれば役に立ちます。
編集: 詳細については、UTA (ソルトレイクのバス システム) のウェブサイトでバスの時刻表を提供しています。各スケジュールは、ヘッダーに駅があり、行に出発時刻があるテーブルに表示されます。スケジュールを調べて、テーブルに情報を保存し、クエリを実行できるようにしたいと考えています。
スケジュールの起点はこちら
css - すべてのメディアを含む公開 HTML ページを保存し、構造を維持する方法
HTML モックアップをスクレイピングしてページの完全性を維持できるLinux application
(または Firefox 拡張機能)を探しています。
Firefox はほぼ完璧に機能しますが、CSS で参照されている画像を取得しません。
Firefox の Scrapbook 拡張機能はすべてを取得しますが、ディレクトリ構造をフラット化します。
すべてのフォルダがページの子になったとしても、まったく気にしませんindex
。