問題タブ [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
184 参照

php - 正規表現の問題はプレーヤーの数を取得します

各プレイリストからプレーヤーの数を取得したいのですが、値はコンマなしです。

上記は、私が欲しいのは「652」のリスト項目の1つの終わりです。

これはhttp://www.bungie.net/mobile/playlists.aspxのソースコードであり、携帯電話のエミュレーターを使用するか、ソースを確認しない限り、表示することはできません。

0 投票する
1 に答える
1101 参照

c# - C#.net System.Net.WebClient ..サーバー側かどうか?

コンテンツタイプJSON形式で単純なresponse.writeを実行するC#.netWebフォームがあります。これは、AndroidフォンからのTinyWebDB API呼び出しを含め、テストするすべてのクライアントでうまく機能します。ただし、この質問ではそのAPIについて心配する必要はありません。

そのWebフォームにサーバーサイドコードを追加して、次のようにWebページを読み取ってスクレイプしました。

コードはすべてサーバーサイドだという印象を受けました!?

IE、FF、Chromeのページをテストしました。すべてうまく機能します。ただし、TinyWebDBからWebフォームページを呼び出そうとすると、呼び出しは正常に機能し、データが返されますが、サーバー側でWebページの読み取りで404エラーが発生しますか?

これは、System.Net.WebClientがクライアント自体から何かを要求するか、クライアント自体で何かを実行しているように見えます。私は、ページの読み取りがすべてサーバーサイドで行われていて、私のサーバーの舞台裏で行われていると思いました。サーバーサイドコードが、どのブラウザーまたはAPIがWebフォームの呼び出しを開始したかを気にするのはなぜですか?

別のクラスを使用する必要がありますか?

どうもありがとう。

0 投票する
4 に答える
91 参照

javascript - 正規表現の問題ですか、それとも別の解決策ですか?

私が抱えている問題は、ウェブサイトのソースから正常に削除したJavaScriptのブロックがあり、探している特定の値を取得するためにふるいにかける必要があることです。

flvFileNameリストされているすべてのファイル名を見つけて取得する必要があります。この場合は'trailer1,trailer2,trailer3'です。

最初は正規表現を使用して開始タグと終了タグを照合し、次にファイル名を照合して配列に抽出し始めましたが、問題は、リストに常に3つのビデオがあるとは限らないことです。ゼロ以上の可能性があるため、マッチングは機能しません。これにアプローチする方法について、ラップトップを悪用し続けないような考えはありますか?

0 投票する
1 に答える
4889 参照

hyperlink - クラス名ですべてのリンクを収集する HTMLUnit

特定のクラス名の下にあるページのすべてのリンクをスクレイピング/収集したい

例: HTML 農業 (92)

私は次のコードをいじっています:

getByXPath オプションは null を返し、他のオプションはすべてのアンカーを取得します。リンクをリストに取り込む方法はありますか?

0 投票する
1 に答える
1628 参照

flash - フラッシュのみのサイトからデータをスクレイピングする

JavaScript、HTML、CSS、VBA と、一般的なプログラミング構造 (関数、ループなど) を少し知っています。

この問題にどのようにアプローチしますか。スポーツくじの Web サイトが、フラッシュのみの Web サイトに数値データ (オッズ) を掲載しています。賭けのオッズは非常に頻繁に変化します。

このデータを取得する必要があります。できれば毎秒データをスクレイピングし、データとタイムスタンプをテキストファイルに入れます。

彼らは RMTPS プロトコルを使用してデータを私のブラウザに送信します。パケットリスニングは不可能ですか?私はn00bなので、間違っていることを許してください。

ピクセルスクレイピングが可能であることは知っていますが、それを機能させるのは面倒です。

ウェブサイトを保存しました。swfファイルをflaファイルにリバースエンジニアリングしました。サイトの完全なソース コードがあると思います。かなり大きいです。幸いなことに、コードは非常に説明的で読みやすいですが、それでも膨大です。

問題は、ピクセル スクレイピングやパケット スニッフィングではなく、データ ストリームに侵入して「リッスン」し、必要なデータをキャプチャすることによって、データを取得するにはどうすればよいかということです。

getOddsGameID(223) などのような関数はないと確信しています。賭けオッズのデータ​​転送は、スクリプト自体の時間指定機能からではなく、サーバーによって開始される可能性があると思います。そのため、自分がブラウザーであるふりをして、Flash インタープリターに入る前に生データを取得する必要があります。

0 投票する
2 に答える
906 参照

javascript - iframeから親ページのhtmlをスクレイプします

親ページからPDFを生成するために使用されるiframeがあります。PDFメーカー(ABCpdf)には、変換するHTMLファイルが必要です。

私が現在行っていることは、以下を使用して親のHTMLをスクレイプすることです。

次に、iframeのフォームを使用してサーバーに送信し、そこでマッサージしてiframeセクションなどを削除してから、PDFメーカーの一時的なHTMLファイルとして保存します。

ただし、結果のHTMLコードは、 etcの<BODY>代わりにマングルされ、IDの前後の引用符は削除されます。<body>

HTMLを取得するためのより良い方法はありますか?

ページをHTMLとして再生成しない理由は、親ページが複雑なレポートであるためです。これには、ユーザーがセクションを表示/非表示にしたり、テーブルの行を並べ替えたりできるようにするためのさまざまなコントロールが含まれています。したがって、取得するHTMLは、ユーザーのカスタマイズを反映している必要があります。

ありがとう

0 投票する
1 に答える
1486 参照

php - ページを解析して、入力フィールドの内容を取得しますか?

PHP を使用してページを開き、2 つの入力フィールドから 2 つの値を取得したいと考えています。

入力フィールドは次のようになります。

どうすればこれを行うことができますか?

このページをスクレイピングし、 の値を返すinput "__ONE" as $oneなど...

0 投票する
3 に答える
449 参照

php - phpはhtmlページから情報を抽出します

私はこのコードを持っています

情報を配列に抽出して、このようなものを作成するにはどうすればよいですか。

注:1ページに一度に3つ以上のアイテムがある場合もあれば、1つしかない場合もあります。

0 投票する
3 に答える
5312 参照

php - Javascript で生成されたスクレイプ Web サイト

これは本当に挑戦的なものだと思います!

私は自分の地元のサッカー リーグ www.rdyfl.co.uk のウェブサイトを作成し、FA のフルタイム システムからの JavaScript コード スニペットを含めて、私たちのフィクスチャを生成し、表フィクスチャの最近の結果などにリンクします。

サイトに追加したい別の機能については、年齢層と部門ごとに「今後の試合」をスクレイピングする必要がありますが、ソースを調べると 2 つの問題があります。

  1. フィクスチャのコンテンツは JavaScript によって生成されるため、ソースだけでなく、生成されたソースも表示する必要があります。

  2. Firefox を使用して生成されたソースを表示すると、チーム名は実際にはさらに JavaScript のリンクであり、名前自体ではありません。

私は基本的に、定期的にフィクスチャをダウンロードしてからmysqlデータベースに書き込みたいですか?

FA に問い合わせましたが、データにアクセスするためのオプションはありませんか?

これまでスクレイピングのコーディングをしたことがないので、誰かが私に簡単な解決策を教えてくれますか、それとも挑戦に夢中ですか?

0 投票する
3 に答える
195 参照

php - このデータを何千回も取得する最も効率的な方法は何ですか?

</b>PHP のDOMDocument->loadHTML()システムを使用して、次のデータ (タグの 4.0m 後) を取得する最良の方法は何でしょうか? ある種のCSSスタイルのセレクターだと思いますか?

(LINE 240, always 240) <b>Current Price:</b> 4.0m

私はドキュメントを見回してきましたが、正直なところ、これは私にとって完全に異質です! さらに、次のような URL から、何千ものページのこのデータを取得するにはどうすればよいでしょうか。

http://site.com/q=item/viewitem.php?obj=11928

最小値/最大値はわかっています(obj=#スクレイピングする必要があるページの数)。それらすべてを段階的に取得し、MySQL データベースに出力name descriptionしますprice(現時点では、パーセンテージの上昇/低下についてはあまり心配していません)。 、そこから取得して自分のサイトに表示できます。

私が興味を持っているコードのメインブロックは次のとおりです。

誰かがこれをどうやって進めるかについての骨の折れるヒントを提供できれば、それは大歓迎です!