問題タブ [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jquery - ajaxを使用してxmlでリンクをスキャンし、別のajax呼び出しにリンクを適用して、ページをスクレイプしてデータを返します
なので、投稿する前に見回してみましたが、答えが見つからないようです。私のジレンマ:
さまざまなページ(すべて類似した差分製品)へのURLリンクを格納するXMLファイルがあります。
jQueryとAJAXを使用することで、XMLファイルからリンクを取得できます。
次に、これらのリンクを順番に、プロキシサーバーを使用して別のサイトに接続してデータを取得する別のAJAX呼び出しに渡すことができるようにします。この場合、それは特定のクラスです。次に、そのクラス内のデータを収集し、それを自分のサイトのスパンに順番に適用できるようにする必要があります。
スクレイピングされたデータを待機するHTMLマークアップ
JSはこれをすべて実行します:
したがって、基本的に、他のページのマークアップが次のようになっている場合:
サイト1
サイト2
サイト3
私のマークアップは次のようになります。
だから私の質問は、マークアップに順番にロードするように指定するにはどうすればよいですか?xml内のリンクをループしてから、それらをajax->プロキシにスローし、結果をループして各スパンに吐き出しますか?
どんな助けでも大歓迎です!ありがとう!
php - 会員サイトからコンテンツをスクレイピングして RSS フィードを生成することはできますか?
メンバーシップ サイトからコンテンツをスクレイピングして、受信トレイにインポートする Rss フィードを作成することはできますか?
おわかりのように、私は舞台芸術業界にキャスティング コールを提供するいくつかのサイト (有料のものと無料のもの) のメンバーですが、ほとんどのサイトでは最新のキャスティング コールの更新の Rss フィードが提供されていません。毎日7つの異なるサイトにログインして、最新のキャスティングコールが何であるかを確認してください. スクリプト/プログラムを使用して、これらのページのコンテンツから Rss フィードを作成し、Gmail の受信トレイにインポートできるようにする方法はありますか?
PHPを使用して達成できると確信していますが、自動的にログインする方法がわかりません。
RSS フィードの設定についてサイトの所有者に連絡しましたが、何ヶ月もメールを送信しても返信がありません。
applescript - ApplescriptスクレイピングWebページ
www.engrade.comと呼ばれるこの素晴らしいウェブサイトがあります。さまざまなクラスからログインすると、Webサイトから成績を取得できます。
さて、Applescriptがengrade.comを解析し、ユーザー名とパスワードを使用して私としてログインし、解析して私の成績を見つけることは可能ですか?
誰かがこれの例を示すことができますか?特にログイン。
ありがとう、エリヤ
xml - Excel to XML for data stripping
I am trying to strip data from thousands of identical Excel 2007/2010 files. I would prefer to do this using scraping techniques. Is it possible to scrape an Excel file since, as far as I know, the file is basically some sort of XML format.
So, is it possible to convert an Excel file to XML or some other markup format?
python - SoupStrainer を使用して選択的に解析する
ショッピング サイトからビデオ ゲーム タイトルのリストを解析しようとしています。ただし、アイテム リストはすべてタグ内に格納されるためです。
ドキュメントのこのセクションでは、ドキュメントの一部のみを解析する方法を説明していると思われますが、うまくいきません。私のコード:
現時点では、空でないタイトル参照を持つタグ内の文字列を出力します。しかし、それは「スペシャル」であるサイドバーのアイテムも掲載しています。商品リストのdivしかとれなかったら一石二鳥です。
どうもありがとう。
.net - HTTP Agility Pack - 兄弟へのアクセス?
HTML Agility Pack を使用すると、子孫やテーブル全体などを取得するのに最適ですが、以下の状況でどのように使用できますか?
この場合、マイルが 15 未満の場合、要素を使って何かを行うことができるとは思いませんが、すべての要素に正しいものを見つけてから、その値を確認するためだけに数を見つける必要がありますか? または、より良い方法でこれを達成するためにアジリティパックで正規表現を使用する方法はありますか...
database - 何百もの Word 文書から構造化された情報をスクレイピングしていますか?
私は、何百もの人間が読める文書 (ほとんどが MS Word) から構造化された情報を抽出し、それをデータベースに入れるという任務を負っています。データはドキュメント全体のテーブルにほぼ埋め込まれていますが、テーブル間には多くのテキストがあり、ドキュメントの構造は非常に似ていますが、いくつかの違いがあります。ドキュメントはかなり頻繁に変更されます (数か月ごとに更新版を入手します)。
これまでのところ、私が考えることができる唯一の実行可能なオプションは、すべてのドキュメントを手動で調べて情報を挿入/更新することですが、何らかの方法でドキュメントをスクレイピングすることが可能だと誰かが考えているかどうかここで尋ねたいと思いましたか?
ああ、データはかなり正確でなければなりません...
python - Pythonスクレイピングパッケージに関するガイダンス
私はまだPythonの初心者なので、この質問が正気でないことを願っています。
ウェブスクレイピングソリューションをグーグルで検索すればするほど、混乱します(多くの木を調査しているにもかかわらず、森を見ることができなくなります)。
私は、scrapy mechanize spynnerを含む(ただしこれらに限定されない)多くのプロジェクトに関するドキュメントを読んでいます。
でも、どのハンマーを使おうとしたらいいのかわからない。
クロールしようとしている特定のページがあります(www.schooldigger.com)aspを使用しており、エミュレートする必要のあるJavaスクリプトがいくつかあります。
この種の問題は簡単に対処できないことを私は知っているので、私はどんなガイダンスも望んでいます。
利用可能なオプション(および可能であれば異なるプロジェクト間の関係)に関する一般的な議論に加えて、いくつかの具体的な質問があります
Scrapyを使用する場合、解析する「アイテム」を定義せずに、最初の数百ページ程度をダウンロードする方法はありますか?実際にはWebサイト全体をダウンロードしたくはありませんが、スクレーパーの開発中にどのページがダウンロードされているかを確認できるようにしたいと思います。
mechanize、asp、javascript、私が投稿した質問を参照してくださいが、回答はありません、 https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
ユーザーがたどるリンクやグラフィカルに解析するアイテムを選択できるようなユーティリティ(ターボギアアプリケーションまたはブラウザプラグイン)を構築してみませんか?私が提案しているのは、解析APIの周りに座るある種のGUIです。そのようなプロジェクトを作成するための技術的な知識があるかどうかはわかりませんが、なぜそれが不可能なのかわかりません。実際、Pythonについて知っていることを考えると、それはかなり実現可能のようです。たぶん、この種のプロジェクトが直面するであろう問題についてのフィードバックはありますか?
最も重要なのは、すべてのWebクローラーが「サイト固有」に構築されているかどうかです。私は自分のコードの車輪の再発明をしているように思えます。(しかし、それはおそらくプログラミングがあまり得意ではないためです)
フル機能のスクレーパーの例はありますか?ドキュメントにはたくさんの例がありますが(これは私が研究してきました)、パッケージの使用法を説明するためだけに、それらはすべて単純さに焦点を当てているようです。もっと詳細で複雑な例の恩恵を受けるかもしれません。
あなたの考えに感謝します。
post - 助けてください:どうすればこのウェブページをこすり落とすことができますか?
検索サービスを提供するサイトがあります。番号を入力して検索すると、結果が返されます。私がやりたいのは、サイトにアクセスして手動で検索する代わりに、ColdFusionを介してプログラムで検索を実行することです。
これは、私が読みたい/スクレイプしたいWebページのフォームがどのように見えるかです(ページソースを表示したときに見られるように):
私が本当に気にかけているフィールドは、Num入力フィールドだけです。そのフィールドに値を投稿し、検索を実行して、coldfusionコードで結果を取得したいと思います。これは私がこれまでに持っているものです:
しかし、私がそのページに行くと、ダンプはただ「Connection Failure
」と言っています。私は何が間違っているのですか?
c# - Web サイトの HTML 要素の面積を計算しますか?
HTML element
ウェブサイト上の の面積を計算できるかどうかを調べようとしています。ピクセル単位、パーセンテージなど。
私が最初に考えたのは、要素の幅と高さが 100% であると仮定し、HTML and CSS
.
したがって、参照されている CSS ファイルに幅/高さの属性がある場合、body 要素は領域の 25% を占める列で覆われていると言えます (すべてはもちろん画面の解像度に基づいています - そして私はまだプログラムでこれを行う方法を見つけようとしています)。
または、Web サイトをレンダリングし、その時点で最も一般的な画面解像度の画像に基づいて計算を行うべきかどうか)。
他に可能な解決策はありますか?
(現在、私はこれを Perl で解決しようとしていますが、この目的のためのライブラリを持っている言語について知っていただければ幸いです!)
編集:ページ上のすべての要素の視覚領域を取得する必要があります。例えば; 要素の上に要素があり、<body>
視覚的にそれを覆っている場合、その領域を から除外したい<body>
など。ページ上のすべての要素の可視領域を見つけるための単純なレイトレーシング。
編集: JavaScript を除外するとしましょう - 可能な他のアプローチはありますか?