問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
357 参照

gwt - 新しいgwtインターフェース自動化テスト

そのため、フロントエンドGUIは、新しいGWTベースのアプリケーションに大幅な見直しを行っています。私はいくつかのtcl/expectスクリプトでcURLを使用して古いフロントエンドの自動化スクリプトを作成することに取り組んできました。新しいアプリを見ていると、cURLがこれらのWebインタラクションを実行するための問題外であり、GWTで作成されたWebアプリのテストについて誰かがアイデアや経験を持っているかどうか疑問に思っていることにますます気づき始めています。どんな助けでもいただければ幸いです!!

0 投票する
2 に答える
521 参照

web-scraping - txtモードでのWebスクレイピング

現在、watir を使用して、通常の HTML ソースからすべてのデータを隠している Web サイトの Web スクレイピングを行っています。私が間違っていなければ、彼らは XML とそれらの AJAX テクノロジを使用してそれを隠しています。Firefox では見ることができますが、「選択の DOM ソース」を介して表示されます。

すべて正常に動作しますが、現在、watir と同等のツールを探していますが、ブラウザなしですべてを行う必要があります。すべてをtxtファイルで行う必要があります。

実際、現在、watir はブラウザを使用してページをエミュレートし、探している html コード全体を返しています。同じことをしたいのですが、ブラウザはありません。

出来ますか ?

よろしくお願いしますタク

0 投票する
10 に答える
140086 参照

java - JavaによるWebスクレイピング

JavaベースのAPIをスクレイピングする優れたWebを見つけることができません。私がスクレイプする必要があるサイトは、APIも提供していません。いくつかを使用してすべてのWebページを反復処理しpageID、DOMツリーでHTMLタイトル/その他のものを抽出したいと思います。

ウェブスクレイピング以外の方法はありますか?

0 投票する
3 に答える
75 参照

python - PythonでWebサイト上のサイト数を決定する

次のリンクがあります。

http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0001&language=EN

URL の参照部分には、次の情報が含まれています。

A7 == 議会 (現在は第 7 議会、前者は A6 など)

2010 == 年

0001 == ドキュメント番号

毎年、議会について、ウェブサイト上の文書の数を特定したいと思います。たとえば、2010 年の場合、番号 186、195、196 には空のページがあり、最大番号は 214 であるという事実によって、タスクは複雑になります。理想的には、出力は、欠落している番号を除くすべてのドキュメント番号を含むベクトルである必要があります。

これがPythonで可能かどうか誰か教えてもらえますか?

ベスト、トーマス

0 投票する
1 に答える
1865 参照

java - Android/Java: この Web ページのクリックをシミュレートします。

昨年、ベルギーの鉄道会社の情報を破棄する Android アプリケーションを作成しました (アプリケーションは BETrains: http://www.cyrket.com/p/android/tof.cv.mpp/ ) 。

このアプリケーションは本当にクールで、ユーザーは電車の中で他の人と話すことができ (メッセージサーバーは私が運営しています)、その会話は Twitter でも行われました: http://twitter.com/betrains

ベルギーの誰もがそれを愛していました。会社は私たちが彼らのデータを使用するのを避けようとし、一部のユーザーのウェブサイトを閉鎖しましたが、一部の弁護士が会社を攻撃し、最終的に問題はなくなり、ウェブサイトは開いています: http://blog.tuinslak.org/2010 /07/irail-is-back

したがって、法的には、私の申請は (今のところ) 完全に正しく合法ですが、鉄道会社からは何の助けも得られません。

だから私の質問は、データを取得するための少しの助けです。私は現在、Android / Javaの初心者であり、解決策を見つけるために数週間を費やしていますが、おそらく数分で解決策を見つけられるでしょう.

ということで、問題は次です。次の URL を見ると、URL 内にモンスとトゥルネーの 2 つの都市名と、日時に関する情報が表示されます。これは、1 年間有効だった古い方法です。

http://hari.b-holding.be/Hafas/bin/query.exe/en?&REQ0JourneyStopsS0A=1&REQ0JourneyStopsS0G=MONS%20[b]&REQ0JourneyStopsZ0A=1&REQ0JourneyStopsZ0G=TOURNAI%20[b]&REQ0JourneyDate=27.010.10&REQ0JourneyTime=19: 030&Timesel=depart&ViaName=&ViaMode=NEE&DateMode=ANDERS&PLANNER=TRUE&start=1&queryPageDisplayed=yes

しかし、URL によって確認ページが表示され、確認ボタンをクリックして次のページに移動する必要があります。

そのため、私のコードはもう機能しません。このボタンをプログラムでクリックして、正しい Web ページにアクセスする必要があります。

このボタンのクリックをシミュレートする方法について何か考えはありますか? 今のところ、私のコードは古典的なスクレイピング コードで、URL の先頭に数行を追加したものです。URL によって結果ページが表示されると想定しました。先週まではそうでした。

コードを改善する方法について何か考えはありますか?

ソフトウェアは無料なので、ペイパルの送金はできませんが、助けてくれる人には全国が本当に感謝しています!

どうもありがとうございます。

0 投票する
2 に答える
3464 参照

perl - Perl Web スクレーパー、「スタイル」タグのみを持つ DIV からコンテンツを抽出しますか?

私はこれで立ち往生していて、一日中..私はまだperlでの解析/スクレイピングにかなり慣れていませんが、これまではダウンしていると思っていました..さまざまなperlモジュール(tokeparser、tokeparser:シンプル、Webパーサーなど)...次の文字列があります(実際にはHTMLページ全体ですが、これは関連する部分を示しているだけです..「text1」と「text1_a」を抽出しようとしています.など(「text1」などは例としてそこに入れられているだけです)...基本的には、それぞれから最初にこれを抽出する必要があると思います:

次に、これを解析して2つの値を取得します。 tokeparser:simple で実行できると思っていたので、これがなぜそんなに問題を引き起こしているのかわかりませんが、DIV内の値を返すことができなかったようです、別のタグのセット(タグ)が含まれているためだろうか

文字列 (html Web ページを表す)

perl Webパーサーモジュールでの私の試み:

私は盲目的に web:parser モジュールの意味を理解しようとしているだけです。本質的にドキュメントがないため、モジュールに含まれている例とインターネットで見つけた例からそれをつなぎ合わせただけです..アドバイス大変感謝しています。

0 投票する
2 に答える
2920 参照

php - cURL のエラー - 「ホストを解決できませんでした: www.bbb.org(; 要求されたタイプのデータ レコードがありません」

http://www.bbb.org/us/Find-Business-Reviews/のデータにcURL でアクセスしようとしています。ここで、HTTPFox を使用して、このサイトが送信するデータを確認し、それに応じてページに「POST」する配列を作成しました。しかし、ページ 2、3、4、5 へのアクセスに問題があります...

これが配列です-

しかし、私は常に同じエラーが発生しています -

「ホストを解決できませんでした: www.bbb.org(; 要求されたタイプのデータ レコードがありません」

これが私が使用しているcURL関数です

0 投票する
1 に答える
3866 参照

php - PHPに「仮想ブラウザ」はありますか?

こんにちは、

Web サイトからデータを抽出したいのですが、変な JavaScript を使用しているため、cURL で作業を完了できません。ページを開き、いくつかのボタンのクリックを開始できる仮想ブラウザのようなものがあることを知りたいですか?

そうでない場合、コマンドラインからこのタスクを達成するための実行可能プログラムはありますか?

0 投票する
2 に答える
279 参照

php - PHP内でJavascriptにログインします

PHPを使用して内部アプリケーション用のWebスクレイパーを作成していますが、ページの1つにJavaScriptログインがあり、通常どおりデータをスクレイピングするために自律的にログインする方法はありますか?

(私はcurlを使用して他の2つのサイトにログインしています)

0 投票する
2 に答える
756 参照

scripting - ウィキペディアの記事の完全な変更履歴を取得するにはどうすればよいですか?

ウィキペディアの人気記事の履歴にあるすべてのページのコンテンツをダウンロードする方法が欲しいのですが。言い換えれば、私は単一の記事のすべての編集の完全な内容を取得したいと思います。どうすればこれを行うことができますか?

ウィキペディアAPIを使用してこれを行う簡単な方法はありますか?簡単な解決策として飛び出したものは何も見つかりませんでした。PyWikipediaボットページ(http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813)のスクリプトも調べましたが、役立つものは見つかりませんでした。PythonまたはJavaでそれを行うためのいくつかの簡単な方法が最善ですが、私はデータを取得する簡単な解決策を受け入れています。