問題タブ [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - タグ内ではなく、他の dom 要素を含む Div 内のプレーンテキストを抽出します
PHP を使用して、どのタグにもラップされていないプレーン テキストを抽出しようとしています。説明する最善の方法は、示すことです。
私が試してみようとしているのは、div内のすべてのdom要素をループして削除することです。これにより、テキストが残るはずです。しかし、もっとエレガントな方法があることを願っています:)
ありがとう
アンディ
javascript - 画面のスクレイピング/解析に関するヘルプ
http://www.hostels.com/hosteldetails.php/HostelNumber.11890のように、hostels.com から一部のデータ (具体的には空室状況と価格) をスクレイピングして最終的に解析しようとしました。問題は、泊数を選択して「今すぐ予約」を選択すると、URL文字列を介して何も渡されないことです(すべてAjaxを介して行われると思います)特定の日付または時間枠に直接移動できません.
私は Selenium、IRobotSoft、FakeApp などのブラウザー エミュレーターを試してみました。Selenium と Fake で完全なソースをキャプチャする作業の多くを実行できましたが、複数のページをスクレイピング (および他のソフトウェアで解析) する必要がある場合は、見苦しく、退屈でした。一日。
HTML DOM Parser、PHP Scriptable Web Browser、HTMLUnit、cScrape.php、Crowbar も試しました。彼らが Ajax を処理できなかったか、私が彼らを走らせることができなかったのです。
理想的には、依存関係をできるだけ少なくして、サーバーから実行できるものが欲しいのですが、現時点では実行したいと思っています。
これを機能させるために何時間も費やした後。どこから手を付けていいのかわからないという気持ちはまだあります。誰かが私を正しい方向に向けることができますか?. HTMLUnit に戻ってもっと時間を費やすべきでしょうか? このようなサイトのベストプラクティスは何ですか?
ありがとう
php - PHP / HTML-複数ページの画面スクレイピング、日付と値の間にコンマを入れて.txtにエクスポート
単純な数値文字列について、Webページ(コードを参照)(および過去にさかのぼるページ(ページ自体に日付「20110509」が表示されます))をスクレイピングしようとしています。必要なテーブル内の特定のデータを解析する方法を、多くの試行錯誤(プログラミングは初めて)で理解できないようです。私はカールなどのない単純なPHP/HTMLを使おうとしています。これは可能ですか?私の主な問題は、ソースコードからデータを取得するために必要な区切り文字を使用することだと思います。
私が欲しいのは、プログラムが最初のページ、たとえば「20050101」から開始し、現在の日付まで各ページをスキャンして、特定のデータ、たとえば「latestclose」(列)を取得することです。 )、 "closeing arm"(行)、および対応する日付の値を単一の.txtファイルにエクスポートし、日付を値からコンマで区切ります。プログラムを実行するたびに、日付/値を既存のテキストファイルに追加する必要があります。
以下のコードの多くの行がジャンクであることを認識しています。これは私の学習プロセスの一部です。
asp.net - Web スクレイプを取得するときの画像サイズを把握する
私は、Facebook と同じように、Web ページのプレビューを表示するためのほぼすべての機能を開発しました。私は .net hhtprequest を使用し、次に Html Agility Pack を使用して html を解析し、ノードとすべてを取得します。しかし、100 ピクセルより大きい画像を見つける場合は、画像タグの幅属性を取得しようとします。そうでない場合は、スタイル属性を取得して幅プロパティを見つけますが、幅は css クラスなどから取得される場合があります。幅情報がない場合があります。サーバーに画像をロードして見つけさせるにはどうすればよいですか。ただし、サーバーに多くの負荷がかかることにもなりますが、リードをいただければ幸いです。事前にThx
ruby - Web ページ内の Ruby、Nokogiri、および Mechanize Java Cookie リンクを使用した解析
みんな。
リンクごとに Java Cookie が設定されている Web ページを解析する必要があります。通常の検索を解析すると、すべての製品が表示され、mysql データベースにインポートされます。
次のコードを使用して、検索結果からすべての製品とその要素をスクレイピングすることができました。
これは私が持っているものです:
今は検索したくありません。カテゴリ リストから解析したい:
メイン ページへのリンク:http://www.site.com.mx/tienda/articulos.php?opcion=lineas&seccion_mostrar=11すべてにリンクが含まれています) 上部の名前: ACCESORIOS はカテゴリ ACCESORIOS へのリンクであり、以下にリストされている太字の名前はサブカテゴリであり、太字の名前の下にあるものはブランドです。ACCESORIOS をクリックすると、すべてのブランドとすべてのサブカテゴリが混在して表示されます。
ACCESORIOS
Accesorios Multimedia(6)
ACTECK DE MEXICO (5)、MANHATTAN (1)
Accesorios P/impres。Punto De Venta(1)
EPSON CORPORATION (1)
Accesorios Para Cableados De Patch Panels(1)
INTELLINET NETWORK SOLUTIONS (1)
Accesorios Para Camaras Digitales(1)
MANHATTAN (1)
Accesorios Para Computadoras De Escritorio(32)
ACTECK DE MEXICO (2 ) )、GENERICA (1)、MANHATTAN (28)、TARGUS (1)
Accesorios Para Computadoras Portatiles(60)
ACTECK DE MEXICO (3)、GENIUS (2)、HP COMERCIAL (2)、HP IMPRESION (1)、MANHATTAN (17) )、PERFECT CHOICES (32)、SOLIDEX (1)、TARGUS (1)、TECH ZONE (1)
Accesorios Para Ipod(3)
ACTECK DE MEXICO (1)、PERFECT CHOICES (2)
Accesorios Para Mesas(3)
MANHATTAN (2), PERFECT CHOICES (1)
Accesorios Para Redes(13)
INTELLINET NETWORK SOLUTIONS (5), MANHATTAN (8)
Accesoriso Para Celulares(14)
BLACKBERRY (14)
Adaptador Bluetooth(6)
ACTECK DE MEXICO (1), MANHATTAN (2)、PERFECT CHOICES (3)
Adaptadores Para Mouse Y Teclado(3)
MANHATTAN (2)、PERFECT CHOICES (1)
Audifono/diademas Y Microfonos(49)
ACTECK DE MEXICO (14)、BTO (1)、GENIUS (3) )、LOGITECH (2)、MANHATTAN (11)、PERFECT CHOICES (18)
これは、各リンクの Cookie を持つテーブルのコードです。そのため、これをスクレイピングするのに苦労しています。
問題は、すべてのリンクにアクセスできるようにコードに何を追加すればよいかということです。Java Cookie を使用する場合。
使用される Cookie:
名前 、値の範囲
codigoseccion_buscar、11-30
codigomarca_buscar、100-736
codigolinea_buscar、15-1385
javascript - mechanize を適切に使用して AJAX サイトをスクレイピングする方法
だから私はWebスクレイピングにかなり慣れていません。このサイトにはテーブルがあり、テーブルの値はJavascriptによって制御されています。値は、ブラウザが Javascript から要求するように指示される将来の値のアドレスを決定します。これらの新しいページには、スクリプトがブラウザーでテーブルを更新する JSON 応答があります。
だから私は、URLを取り込んでボディレスポンスを吐き出す機械化メソッドを持つクラスを構築したいと思っていました。最初はHTMLで、その後、ボディレスポンスは残りの反復でJSONになります。
機能するものがありますが、それが正しいかどうか、またはより良い方法があるかどうかを知りたいです。
データがメイン ページの html から抽出された後、self.first_append は正になります。そのため、本文の応答に JSON がないため、br.addheaders.append は最初は実行されませんが、他のすべての本文の応答は JSON です。 . これはこれを行う正しい方法ですか?より効率的な方法はありますか?
データがメイン ページの html から抽出された後、self.first_append は正になります。そのため、本文の応答に JSON がないため、br.addheaders.append は最初は実行されませんが、他のすべての本文の応答は JSON です。 . これはこれを行う正しい方法ですか?より効率的な方法はありますか?これをより適切に行う他の言語/ライブラリはありますか?
長時間実行した後、次のエラー メッセージが表示されます。
なぜそれが生成されているのかわかりませんが、それを見る前に何度も繰り返す必要があります。
php - Ipad の User-Agent を使用してサイトをスクレイピングするには?
Ipad の User-Agent を使用してサイトをスクレイピングするにはどうすればよいですか?
ソースを出力しますが、まだタグを見つけることができない PHP で curl を使用して、このコードを以下に示します。Ipad User-Agent を使用する Ipad または Safari ブラウザーでは、サイトの読み込み時にタグが表示されます。
ありがとう!
curl - cURLを使用してプログラムで検索エンジンを使用することは合法ですか?
cURLを使ってBingに検索リクエストを行い、検索結果を利用したい。それは彼らの利用規約に反していますか?もしそうなら、それが書かれているURLを投稿してください。見つかりませんでした。
java - JavaでAjaxサイトをスクリーンスクレイピングする方法は?
いくつかのAjaxベースのWebサイトをスクリーンスクレイピングし、Webページの一部を更新するクリックをシミュレートしてから、更新されたHTMLを読み取りたいと思います。これを実行できるJavaライブラリはありますか?
php - PHP を使用して Web サイト (JavaScript Web サイト) をスクレイピングする
簡単な PHP スクリプトを使用して Web サイトをスクレイピングしようとしています (JavaScript であると信じています)。私は初心者なので、どんな助けでも大歓迎です。ウェブページの URL は次のとおりです。
http://www.indiainfoline.com/Markets/Company/Fundamentals/Balance-Sheet/Yes-Bank-Ltd/532648
たとえば、ここでは会社名 (Yes-Bank-Ltd) とコード (532648) を get_file_contents に渡したいと思います。やり方がよくわからないので、誰か助けてください。
ありがとう、ニディ