問題タブ [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
636 参照

python - Python を使用してブラウザー リソースの展開動作をシミュレートする

ブラウザ リソースの展開動作をシミュレートする方法を探しています。

私が対処しようとしているフローは次のとおりです。

  • 初期 URL にアクセスする (例: http://example.dmn/index.htm )
  • 受信した html 応答を解析します (例: index.htm)
  • インデックス解析の結果としてブラウザーが取得するリソースを見つけます。たとえば、次のようになります。
    • 画像
    • 閃光
    • 埋め込みビデオ/オーディオ
    • フレーム/iFrame
  • 見つかった新しいリソースごとにプロセスを再帰的に繰り返します

リンク (href) をたどることは期待していません。ページが最初にアクセスされたときにブラウザーによって自動的に取得されるページ リソースのみです。

このシミュレーションを実行する方法について提案はありますか?

役立つ可能性のあるPythonプロジェクト/ライブラリはありますか?

ありがとう

0 投票する
2 に答える
364 参照

javascript - ASPページからデータを取得する

ASP ページから生成された html を取得する方法があるかどうか疑問に思っています。ページからテーブルを取得しようとしていますが、コードをテストしている間、このページが存在するサーバーに常にクエリを実行する必要がないように、愚かにも静的な html ページを使用しました。ページからラベルのないテーブルを取得するために書いた JavaScript コードが機能します。次に、実際のページでそれを実践したところ、ASP ページが URL で jquery .get 要求を使用して表示可能なページを生成しないことがわかりました。

要求に応じて ASP ページが有効なページを返すように、必要なテーブルのページを照会する方法はありますか?

(これにはjavascriptとperlの使用にも制限されています。これが存在するサーバーはphpを実行しません。プロプライエタリソフトウェアの問題に追加してこれを解決するためにASP.NETを学びたくありません)

0 投票する
1 に答える
557 参照

java - Android用のHttpClientからWeb結果を取得します

例:ウォルマートのホームページで何かを検索したとします。このように。リストされている最初の製品から情報を取得するにはどうすればよいですか。製品名、価格、詳細、評価、モデルなどの情報。そして、どのようにボックスを検索しますか。私が思う唯一の方法は、http://www.walmart.com/search/search-ng.do?search_constraint = 0&ic = 48_0&search_query = someProduct&Find.x = 0&Find.y = 0&Find=Findを置き換えることです。次に、someProductをseachに置き換えて、HttpClientで呼び出します。

0 投票する
1 に答える
376 参照

php - PHP を使用して LocService (http://www.trackdroid.org/locservice.html) からデータをスクレイピングする方法

LocService (Android フォンからの GPS ping を追跡するソリューション)から地理位置情報データをスクレイピングし、PHP cron ジョブとして MySQL データベースでホストすることを検討しています。ログイン システムは HTTPS を使用します。cURL から何かを返すのに問題があります。

誰かアイデアはありますか?

ガウジー

0 投票する
4 に答える
170 参照

python - 多くの URL アドレスを取得する

編集: 明確にするために、私は python を使用しており、これを python 内で実行したいと考えています。

私は大学で研究プロジェクトのためにデータを収集している最中です。基本的に、欧州議会を監視している Web サイトから多くの情報を収集する必要があります。あるサイトの URL がどのように見えるかの例を次に示します。

http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0190&language=EN

アドレスの参照部分の後の数字は、A7 = 会期中の議会 (以前の議会は A6 など)、2010 = 年、0190 = ファイルの番号を示します。

私がやりたいことは、さまざまな議会のすべての URL を持つ変数を作成することです。これにより、この変数をループして、Web サイトから情報をスクレイピングできます。

PS:私はこれを試しました:

しかし、これは私に次のエラーを与えます: Traceback (most recent call last): File "", line 7, in IndexError: list index out of range

0 投票する
1 に答える
2863 参照

python - BeautifulSoupを使用したタグのクリーンアップと削除

これまでに次のスクリプトがあります。

そしてそれは完全に実行され、次の「アイテム」になります。

でも、アイテムを持って片付けてもらいたいのですが

BeautifulSoupとPythonでそのようなタグを削除するにはどうすればよいですか?

いつものように、ありがとう!

0 投票する
2 に答える
2364 参照

python - 脱出…BeautifulSoupで

私は現在BeautifulSoupを使用していくつかのWebサイトをスクレイプしていますが、特定の文字に問題があります。UnicodeDammit内のコードは、これが(再び)Microsoftによって発明されたものであることを示しているようです。

まだpython2.5を使用しているので、BeautifulSoup(3.0.8.1)の最新バージョンを使用しています。

次のコードは私の問題を示しています。

ご覧のとおり、問題は最後にある「…」(&hellip)文字です(ブラウザはおそらく正しくエスケープされています)。明らかに、それは私が興味を持っていることではありません。

この文字がUnicode表現か何かを持っているといいでしょう。それを単純に無視することでさえ、私の特定の問題を解決するでしょう。

BeautifulSoupでこれを行うにはどうすればよいですか?

0 投票する
3 に答える
619 参照

python - BeautifulSoupを使用してデータをスクレイピングする際の問題

私は、欧州議会から立法行為のタイトルを取得するために、次の裁判コードを作成しました。

ただし、実行するたびに次のエラーが発生します。

ループ内の4番目のドキュメントを読み取れないBeautifulSoupに絞り込みました。誰かが私が間違っていることを私に説明できますか?

よろしくお願いします

トーマス

0 投票する
1 に答える
357 参照

gwt - 新しいgwtインターフェース自動化テスト

そのため、フロントエンドGUIは、新しいGWTベースのアプリケーションに大幅な見直しを行っています。私はいくつかのtcl/expectスクリプトでcURLを使用して古いフロントエンドの自動化スクリプトを作成することに取り組んできました。新しいアプリを見ていると、cURLがこれらのWebインタラクションを実行するための問題外であり、GWTで作成されたWebアプリのテストについて誰かがアイデアや経験を持っているかどうか疑問に思っていることにますます気づき始めています。どんな助けでもいただければ幸いです!!

0 投票する
2 に答える
521 参照

web-scraping - txtモードでのWebスクレイピング

現在、watir を使用して、通常の HTML ソースからすべてのデータを隠している Web サイトの Web スクレイピングを行っています。私が間違っていなければ、彼らは XML とそれらの AJAX テクノロジを使用してそれを隠しています。Firefox では見ることができますが、「選択の DOM ソース」を介して表示されます。

すべて正常に動作しますが、現在、watir と同等のツールを探していますが、ブラウザなしですべてを行う必要があります。すべてをtxtファイルで行う必要があります。

実際、現在、watir はブラウザを使用してページをエミュレートし、探している html コード全体を返しています。同じことをしたいのですが、ブラウザはありません。

出来ますか ?

よろしくお願いしますタク