問題タブ [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 動的 Web サイトをスクレイピングする
ほとんどのコンテンツが ajax リクエストのように見えるものによって生成される動的 Web サイトをスクレイピングするための最良の方法は何ですか? Mechanize、BeautifulSoup、および python の組み合わせの経験はありますが、何か新しいことを考えています。
--編集-- 詳細について: CNNプライマリ データベースをスクレイピングしようとしています。そこには豊富な情報がありますが、API はないようです。
python - Pythonを使用してHTMLページソースから画像ファイルをダウンロードしますか?
HTML ページからすべての画像ファイルをダウンロードして特定のフォルダーに保存するスクレイパーを作成しています。すべての画像は HTML ページの一部です。
screen-scraping - HTML テーブルを CSV にスクレイピングするにはどうすればよいですか?
問題
仕事で、クエリを実行して HTML 形式の情報テーブルを取得できるツールを使用しています。バックエンドからアクセスすることはできません。
この情報の多くは、並べ替えや平均化などのためにスプレッドシートに入れることができれば、はるかに便利です。このデータを CSV ファイルにスクリーン スクレイピングするにはどうすればよいですか?
私の最初のアイデア
私は jQuery を知っているので、それを使用して画面上の表の書式設定を削除し、コンマと改行を挿入し、混乱全体をメモ帳にコピーして CSV として保存するだけでよいと考えました。より良いアイデアはありますか?
ソリューション
はい、皆さん、コピーして貼り付けるのと同じくらい簡単でした。ばかげていると思いませんか。
具体的には、スプレッドシートに貼り付けるときに、「形式を選択して貼り付け」を選択し、「テキスト」形式を選択する必要がありました。そうしないと、スプレッドシート全体を強調表示したとしても、すべてを 1 つのセルに貼り付けようとしました。
php - PHP CSS セレクター ライブラリ?
CSS セレクターを使用して XHTML ドキュメントをクエリできるようにする PHP クラス/ライブラリはありますか? どうにかして CSS セレクターを使用できれば、非常に簡単にアクセスできるデータを得るためにいくつかのページをスクレイピングする必要があります (jQuery は私を甘やかしてしまいました!)。何か案は?
python - ウェブページをスキャンして画像やYouTubeの埋め込みを取得するにはどうすればよいですか?
特定のURLに埋め込まれているすべての画像とフラッシュビデオ(YouTubeなど)を取得する必要があるWebアプリを構築しています。私はPythonを使用しています。
私はグーグルで検索しましたが、これについての良い情報は見つかりませんでした(おそらくこれが何を検索するのかわからないためです)、誰かがこれを経験していて、それがどのようにできるか知っていますか?
利用可能なコード例があれば、ぜひご覧ください。
ありがとう!
html - HTML ドキュメントから最大のテキスト ブロックをスクレイピングする
私は、HTML ファイルが与えられたときに、ページのコンテンツ テキストの大部分を含む可能性が最も高い親要素であると考えられるものを選択しようとするアルゴリズムに取り組んでいます。たとえば、次の HTML では div "content" が選択されます。
HTML ドキュメント ツリーを葉までたどり、テキストの長さを合計し、親が子よりも多くのコンテンツを提供する場合にのみ、親が持っている他のテキストを確認するなど、いくつかのアイデアを思いつきました。
誰かがこのようなことを試したことがありますか、または適用できるアルゴリズムを知っていますか? 堅実である必要はありませんが、ページ コンテンツ テキスト (記事やブログ投稿など) のほとんどを含むコンテナーを推測できる限り、それは素晴らしいことです。
php - localhost から cURL 経由で Web サイトにアクセスできませんが、ホストされたサーバーからはアクセスできます
PHP 5 と cURL を使用して、wowarory.com から XML データを取得するスクリプトを作成しています。
ホストされている Web サーバーからこれを実行すると、期待どおりの XML 応答が得られます。しかし、localhost Web サーバーから実行すると、何も得られません。
localhost (yahoo.com、さらには worldofwarcraft.com ) から cURL を介して他の Web サイトを取得できますが、wowarmory.com は取得できません。したがって、cURL が適切に機能していることはわかっています。
次のバージョンの PHP と cURL を使用しています。
ホストされたサーバー:
- PHP 5.2.6
- cURL libcurl/7.16.1 OpenSSL/0.9.7e zlib/1.2.3
ローカルホスト:
- PHP 5.2.6
- cURL libcurl/7.16.0 OpenSSL/0.9.8i zlib/1.2.3
何か案は?
編集: localhost は Windows XP SP3 を実行しています。Web ブラウザから wowarmory.com にアクセスできます。Tracert はホップ 13 でタイムアウトを開始します (明らかに、私の場所から):
残念ながら、tcptraceroute には詳しくありません。
curl の Windows バイナリ バージョンは、http://www.wowarory.com/ に対しては何も返しませんが、http: //www.yahoo.com/ に対しては返します。
wget がありません。
編集 2: ローカルホストの Web サイトに問題なくアクセスできます。それは、私が受け取っていないcurlからの応答です。私はほとんどデフォルトのXAMPPインストールを実行しています(Windows XPのapache 2)。これはすべて正常に機能します。
html - レイアウトとフォーマットにCSSを使用する画面スクレイピングページ...HTMLに適用可能なCSSをスクレイピングする方法は?
私は、外部Webページのごく一部(ページ全体ではなく、ページのごく一部)のスクリーンスクレイピングを行うためのアプリに取り組んでいます。
だから私はhtmlをスクレイピングするために完全に機能するコードを持っていますが、私の問題は、生のhtmlだけでなく、抽出しているページのセクションをフォーマットするために使用されるCSSスタイルもスクレイピングしたいので、元のフォーマットがそのままの新しいページ。
Firebugに精通している場合は、強調表示したページの特定のサブセットに適用できるCSSスタイルを表示できるため、その方法を理解できれば、それらのスタイルを表示するときに使用できます。私の新しいページのコンテンツ。しかし、私はこれをどのように行うのか分かりません........
html - c# XML 操作 VB コード変換 クエリ... などなど!
LINQを使用してHTML操作を行うためにVBチュートリアルに従っています
それは次の構造を持っています
C#で同じことを行うにはどうすればよいですか?
解決策を保持する XMLNamespaceManager と呼ばれるものがあるようですが、私は愚かすぎてその方法を理解できません。
何かアドバイスはありますか?