問題タブ [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - RでスクレイプされたWebページから単一の要素を分離する方法
Rを使用してこのページをスクレイプしたいと思います:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)など、ゴールの得点者と時間を取得します。
これまでのところ、これは私が持っているものです:
そして、pagetreeオブジェクトには、解析されたhtmlへのポインターが含まれています(私は思います)。私が欲しい部分は:
しかし、私は今、それらをどのように隔離するかについて迷っています、そして率直に言って、私からbeejeebiesxpathSApply
を混乱させます!xpathApply
<div class="cont">
それで、タグ内に含まれる要素を吸い出すコマンドを作成する方法を知っている人はいますか?
c# - .NETおよびC#でWebサイトからデータを取得する際の問題
ページのリストに移動し、すべてのhtmlをファイルに書き込むWebスクレイピングプログラムを作成しました。問題は、テキストのブロックをプルすると、一部の文字が「�」と書かれることです。これらの文字をテキストファイルに取り込むにはどうすればよいですか?これが私のコードです:
python - Python を使用してブラウザー リソースの展開動作をシミュレートする
ブラウザ リソースの展開動作をシミュレートする方法を探しています。
私が対処しようとしているフローは次のとおりです。
- 初期 URL にアクセスする (例: http://example.dmn/index.htm )
- 受信した html 応答を解析します (例: index.htm)
- インデックス解析の結果としてブラウザーが取得するリソースを見つけます。たとえば、次のようになります。
- 画像
- 閃光
- 埋め込みビデオ/オーディオ
- フレーム/iFrame
- 見つかった新しいリソースごとにプロセスを再帰的に繰り返します
リンク (href) をたどることは期待していません。ページが最初にアクセスされたときにブラウザーによって自動的に取得されるページ リソースのみです。
このシミュレーションを実行する方法について提案はありますか?
役立つ可能性のあるPythonプロジェクト/ライブラリはありますか?
ありがとう
javascript - ASPページからデータを取得する
ASP ページから生成された html を取得する方法があるかどうか疑問に思っています。ページからテーブルを取得しようとしていますが、コードをテストしている間、このページが存在するサーバーに常にクエリを実行する必要がないように、愚かにも静的な html ページを使用しました。ページからラベルのないテーブルを取得するために書いた JavaScript コードが機能します。次に、実際のページでそれを実践したところ、ASP ページが URL で jquery .get 要求を使用して表示可能なページを生成しないことがわかりました。
要求に応じて ASP ページが有効なページを返すように、必要なテーブルのページを照会する方法はありますか?
(これにはjavascriptとperlの使用にも制限されています。これが存在するサーバーはphpを実行しません。プロプライエタリソフトウェアの問題に追加してこれを解決するためにASP.NETを学びたくありません)
java - Android用のHttpClientからWeb結果を取得します
例:ウォルマートのホームページで何かを検索したとします。このように。リストされている最初の製品から情報を取得するにはどうすればよいですか。製品名、価格、詳細、評価、モデルなどの情報。そして、どのようにボックスを検索しますか。私が思う唯一の方法は、http://www.walmart.com/search/search-ng.do?search_constraint = 0&ic = 48_0&search_query = someProduct&Find.x = 0&Find.y = 0&Find=Findを置き換えることです。次に、someProductをseachに置き換えて、HttpClientで呼び出します。
php - PHP を使用して LocService (http://www.trackdroid.org/locservice.html) からデータをスクレイピングする方法
LocService (Android フォンからの GPS ping を追跡するソリューション)から地理位置情報データをスクレイピングし、PHP cron ジョブとして MySQL データベースでホストすることを検討しています。ログイン システムは HTTPS を使用します。cURL から何かを返すのに問題があります。
誰かアイデアはありますか?
ガウジー
python - 多くの URL アドレスを取得する
編集: 明確にするために、私は python を使用しており、これを python 内で実行したいと考えています。
私は大学で研究プロジェクトのためにデータを収集している最中です。基本的に、欧州議会を監視している Web サイトから多くの情報を収集する必要があります。あるサイトの URL がどのように見えるかの例を次に示します。
アドレスの参照部分の後の数字は、A7 = 会期中の議会 (以前の議会は A6 など)、2010 = 年、0190 = ファイルの番号を示します。
私がやりたいことは、さまざまな議会のすべての URL を持つ変数を作成することです。これにより、この変数をループして、Web サイトから情報をスクレイピングできます。
PS:私はこれを試しました:
しかし、これは私に次のエラーを与えます: Traceback (most recent call last): File "", line 7, in IndexError: list index out of range
python - BeautifulSoupを使用したタグのクリーンアップと削除
これまでに次のスクリプトがあります。
そしてそれは完全に実行され、次の「アイテム」になります。
でも、アイテムを持って片付けてもらいたいのですが
BeautifulSoupとPythonでそのようなタグを削除するにはどうすればよいですか?
いつものように、ありがとう!
python - 脱出…BeautifulSoupで
私は現在BeautifulSoupを使用していくつかのWebサイトをスクレイプしていますが、特定の文字に問題があります。UnicodeDammit内のコードは、これが(再び)Microsoftによって発明されたものであることを示しているようです。
まだpython2.5を使用しているので、BeautifulSoup(3.0.8.1)の最新バージョンを使用しています。
次のコードは私の問題を示しています。
ご覧のとおり、問題は最後にある「…」(&hellip)文字です(ブラウザはおそらく正しくエスケープされています)。明らかに、それは私が興味を持っていることではありません。
この文字がUnicode表現か何かを持っているといいでしょう。それを単純に無視することでさえ、私の特定の問題を解決するでしょう。
BeautifulSoupでこれを行うにはどうすればよいですか?
python - BeautifulSoupを使用してデータをスクレイピングする際の問題
私は、欧州議会から立法行為のタイトルを取得するために、次の裁判コードを作成しました。
ただし、実行するたびに次のエラーが発生します。
ループ内の4番目のドキュメントを読み取れないBeautifulSoupに絞り込みました。誰かが私が間違っていることを私に説明できますか?
よろしくお願いします
トーマス