問題タブ [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
947 参照

.net - グーグル検索結果の説明をこすり取る方法

私はvb.netを使用してアプリケーションを開発しています、私のアプリケーションはウェブブラウザコントロールを使用してグーグルで簡単な検索を行いますアプリケーションは結果をスクレイプしますリンクとその説明、私はリンクのhrefをスクレイプすることに成功しましたが、説明をスクレイプできません各リンクの検索結果の!

どんな助けでも大歓迎です

よろしくお願いします

0 投票する
5 に答える
33464 参照

python - Python を使用して Web ページにデータを入力し、結果の出力をスクレイピングするにはどうすればよいですか?

Web ページからデータをスクレイピングするための BeautifulSoup と urllib2 に精通しています。しかし、スクレイピングしたい結果が返される前にパラメーターをページに入力する必要がある場合はどうすればよいでしょうか?

この Web サイトを使用して、2 つの住所間の地理的距離を取得しようとしています: http://www.freemaptools.com/how-far-is-it-between.htm

ページに移動し、2 つの住所を入力して [表示] をクリックし、[カラスが飛ぶ距離] と [陸上輸送による距離] の値を抽出して辞書に保存できるようにしたいと考えています。

Python を使用して Web ページにデータを入力する方法はありますか?

0 投票する
1 に答える
523 参照

java - 署名されていない Java アプレットを使用して別のドメインからソース コードを取得する

重複の可能性:
Java および crossdomain.xml

別のドメインからソース コードをスクレイピングする、署名されていない (訪問者がアプレットの実行を求めるプロンプトを表示したくない) Java アプレットが必要です。prowser ライブラリを使用してアプレットを作成しました。Eclipse で (アプレットとして) または実行可能な jar として実行すると動作しますが、自分の Web サイトでアプレットを実行すると動作しません。「null」を返します。

私のアプレットコード:

以前、ライブラリのインポートに問題がありました: Export Applet Java with reference libraries

よろしくお願いします。

0 投票する
1 に答える
434 参照

text - Web ページの本文から最初の数文を抽出する方法

ある種の Digg サイトを構築しており、限られたテキスト (2 ~ 3 文) を自動的に取得したいと考えています。記事の最後の 3 文でも構いません。現時点では、問題なく Web ページのコンテンツを取得していますが、いくつかの文を取得するためにユニバーサル スクリプトを作成したいと考えています。コンテンツを取得する Web サイトごとにカスタム スクリプトを作成することは避けたいと考えています。

テキストブロックをドットで見つけることを考えていました。ドットの周りの単語を取得するよりも、近い範囲でドットを見つけること。それは生の考えです。誰かがテキストの一部だけを抽出する方法を他に考えていますか?

完全なコンテンツをスクレイピングしたくありません。

ありがとうございました。

0 投票する
3 に答える
3964 参照

python - Python データスクレイピング

http://www.youtube-mp3.org/から数曲ダウンロードしたいと思います。私は urllib2 とBeautifulSoupを使用しています。

問題は、ビデオ ID がプラグインされたhttp://www.youtube-mp3.org/?c#v=lV7r8PiuecQでサイトを urllib2 で開くと、サイトを取得できますが、彼らはそれについてトリッキーで、情報をロードすることです。いくつかのjs ajaxのものを含む最初のページロードの後。そのため、ダウンロード リンクの URL をスクレイピングしようとすると、読み込まれていないため、文字通りページに表示されません。

Pythonスクリプトなどでこのjsローダーをトリガーする方法を知っている人はいますか?

これは、必要なコンテンツがロードされる前の関連する空の html です。

0 投票する
3 に答える
13074 参照

php - ページのソースからコンテンツを「スクレイピング」する方法は?

ページの HTML ソースを取得する次のコードがあります。

私はそこからいくつかのコンテンツをスクレイピングしたい。たとえば、ページのソースに次の内容が含まれているとします。

これをソースからスクレイピングして変数に格納する方法はありますか?次のようになります。

technorati.com接続に失敗しました
icerocket.com接続に失敗しました
eblogs.com完了Ect
.

ページが動的であるため、問題が発生しています。ソース内の各サイトを検索できますか? しかし、その後の結果をどのように得るのでしょうか? (接続失敗/完了)
助けてくれてありがとう!

0 投票する
2 に答える
2063 参照

r - R で HTML 以外の Web サイトをスクレイピングしますか?

HTML Web サイトの HTML テーブルからデータをスクレイピングするのはクールで簡単です。ただし、Web サイトが html で記述されておらず、ブラウザーに関連情報を表示する必要がある場合、たとえば、それが ASP Web サイトである場合や、データがコード内になく Java コードから入ってくる場合、どうすればこのタスクを実行できますか?

ここにあるように: http://www.bwea.com/ukwed/construction.asp .

VBA for Excel を使用すると、Web サイトを呼び出す関数と IE セッションを作成し、基本的に Web サイトのコンテンツをコピーして貼り付けることができます。Rで同様のことをする機会はありますか?

0 投票する
2 に答える
1363 参照

php - 長時間実行されている PHP スクレーパーが 500 内部エラーを返す

ほとんどの場合、Google で質問の答えを見つけますが、今は行き詰まっています。私は、最初に Web サイトのユーザー名をスクレイピングし、次にユーザーのすべての詳細を取得するスクレイパー スクリプトに取り組んでいます。2 つのスクレイパーが関係しています。最初のスクレイパーはメイン ページを通過し、最初の名前を取得し、次にそのプロフィール ページの詳細を取得してから、次のページに進みます...私がスクレイピングしている最初のサイトの合計は1 つのメイン ページに 64 名が表示され、2 番目のページには 4 ページに 365 名以上の名前が表示されます。

最初のものはうまく機能しますが、2番目のものは500内部エラーが発生し続けます。私はスクリプトを制限して、いくつかの名前だけをスクレイピングしようとしましたが、これは魅力のように機能するので、スクリプト自体は問題ないと確信しています! 私のphp iniファイルのmax_execution_timeは1500に設定されているので、それも問題ではないと思いますが、エラーの原因となる何かがあります...たとえば、10個の名前ごとにスリープコマンドを追加すると状況が解決するかどうかはわかりませんが、さて、私は今それを試しています!

ですから、この状況を解決するのに何が役立つか考えている人がいれば、助けていただければ幸いです!

前もって感謝します、z

0 投票する
2 に答える
2026 参照

php - PHPを使用して特定のDIVからテキストをスクレイピングし、DIV内のhtmlタグを除外するにはどうすればよいですか

特定の div タグからテキストをスクレイピングする必要があるが、html タグのないテキストのみをスクレイピングする必要があるプロジェクトに取り組んでいます。

html の例を次に示します。

H1タグなしでDIV内のテキストをスクレイピングする必要があります。私はこれをさまざまな方法で試しましたが、うまくいきません。

助言がありますか?ありがとう!

0 投票する
1 に答える
1204 参照

php - 親兄弟のXPath選択子孫

このhtmlは私のページ内にあります:

「Cars」と「Trucks」は「Refine by Vehicle Type」の後であるという事実に基づいてスクレイピングしたいと考えています。私は多くの異なる方法を試しましたが、これは私が得ることができる限り近いものですが、NULL を返します。

私は何が欠けていますか?