問題タブ [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - .aspページはリモートの.phpページを呼び出します
IISWebサーバーAからApacheWebサーバーBにデータを送信する必要があります。2つのサーバーは異なる物理ボックスで実行され、異なる静的IPアドレスを持っています。サーバーAで実行されているprocessForm.aspがあり、いくつかのデータを処理します。データをWebサーバーBに送信したいと思います。たとえば、processData.php(サーバーB上)でデータをさらに処理します。これは可能ですか?はいの場合、助けてください。
よろしくお願いします。
web-scraping - Hype MachineなどのWebサイトをスクレイプする方法は?
Webサイトのスクレイピング(つまり、どのように行われるかなど)に興味があります。具体的には、サイトHypeMachineのタスクを実行するためのスクリプトを作成したいと思います。私は実際にはソフトウェア工学の学部生(4年生)ですが、Webプログラミングについては実際にはカバーしていません。そのため、主に理論とクライアント側のアプリケーションに焦点を当てているため、Javascript / RESTFulAPI/すべてのWebについての理解はかなり限られています。どんな助けや指示も大歓迎です。
python - 検索エンジン(S)の結果をスクレイピングするためのpython libはありますか?
検索エンジン (google、yahoo、bing など) から結果を取得するための Python ライブラリを探しています。
私はグーグルのためにのみ見つけました - > http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b
誰かが複数の検索エンジンの 1 つを知っていますか?
php - ウェブスクレイピングにぴったりの言語はありますか?
私はWebスクレイピングに3つの言語(Ruby、PHP、Python)を使用しましたが、正直なところ、どれもこのタスクに最適ではないようです。
Rubyには優れた機械化およびXML解析ライブラリがありますが、スプレッドシートのサポートは非常に貧弱です。
PHPには優れたスプレッドシートとHTML解析ライブラリがありますが、WWW:Mechanizeに相当するものはありません。
Pythonには非常に貧弱なMechanizeライブラリがあります。私はそれに関して多くの問題を抱えていましたが、それでもそれらを解決することができません。そのスプレッドシートライブラリも、XLSXファイルを作成できないため、多かれ少なかれまともです。
ウェブスクレイピングに最適なものはありますか。
PS:私はWindowsプラットフォームに取り組んでいます。
html - Web サイトをスクレイピングして HTML に変換しますか?
私はこれを 3、4 年行っていませんが、クライアントは動的 Web サイトを静的 HTML にダウングレードしたいと考えています。
ドメインをクロールして動作する HTML ファイルを生成し、これを迅速かつ簡単に行う無料のツールはありますか?
編集:それが重要な場合、それはColdfusion Webサイトです.
c# - IE/.Net/C# で本当にマルチスレッドの Web マイニングを行うには?
IE ブラウザーを使用して Web から大量のデータをマイニングしたいと考えています。ただし、WatiN を介して IE のインスタンスを大量に生成すると、システムがクラッシュします。これを行うより良い方法はありますか?単純にできるわけではないことに注意してくださいWebRequests
。サイトで JS 駆動の動作を操作する必要があるため、ブラウザーが本当に必要です。
java - Java を使用して Web 検索をナビゲートする方法
プロジェクトのためにフランスの裁判例をスクレイピングする必要がありますが、裁判所の検索エンジンを Java でナビゲートする方法がわかりません。
操作する必要がある検索ページは次のとおりです。結果ページのスクレイピングを開始したいのですが、URL だけでは Java からそのページにアクセスできません。日付パラメーター (2003 年 1 月 1 日 - 2003 年 6 月 30 日) に基づいて Java がサーバーに検索を実行するように命令する何らかの方法が必要です。その後、接続先の URL を操作するだけでショーを実行できます。 .
助言がありますか?
java - Java Web アプリケーションからデータを抽出するには?
Java Web アプリケーションからデータを抽出する必要があります。具体的には、yahoo マーケット トラッカーからリアルタイムの株式データを抽出しようとしています。誰でも方法を提案できますか?
asp.net - 自動化されたツールが Web サイトにアクセスできないようにする
当社のウェブサイトのデータは簡単にスクレイピングできます。人間がサイトを閲覧しているのか、ツールを閲覧しているのかをどのように検出できますか?
1 つの方法は、ユーザーがページに滞在した時間を計算することです。それを実装する方法がわかりません。自動化されたツールが私の Web サイトからデータをスクレイピングするのを検出して防止するのを手伝ってくれる人はいますか?
ログイン セクションでセキュリティ イメージを使用しましたが、それでも人間がログインして自動ツールを使用する可能性があります。一定時間後に再キャプチャ画像が表示されたら、ユーザーはセキュリティ画像を入力し、再度自動ツールを使用してデータのスクレイピングを続行できます。
別のサイトをスクレイピングするツールを開発しました。したがって、これが自分のサイトで発生するのを防ぎたいだけです!
r - スタックエクスチェンジのホームページから「テーブルのような」データを取得するにはどうすればよいですか?(Rで)
新しいstackexchangeWebサイトの1つのホームページhttps://webapps.stackexchange.com/をスクレイプしたいと思います (1回だけで、数ページだけで、サーバーに迷惑をかけることはありません)。スタックオーバーフローからそれが欲しかったのなら、データベースダンプがあることは知っていますが、新しいスタックエクスチェンジの場合、それらはまだ存在していません。
これが私がやりたいことです。
ステップ1:URLを選択する
ステップ2:表を読む
ステップ2:今回は、XMLで試してみましょう
そのため、ページを読むことができましたが、構造はdivになっています。これを使用して、readHTMLTableと同じものを作成するにはどうすればよいですか?