“scrape”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

942 参照

python - Python + 非同期タスクの機械化

だから私はおいしいページを通り抜けてそこからいくつかのリンクをこすり落とすこのちょっとしたPythonコードを持っています. extract メソッドには、必要なコンテンツを引き出す魔法が含まれています。ただし、ページのフェッチを次々に実行するとかなり遅いです.pythonでこの非同期を実行して、いくつかのgetリクエストを起動してページを並行して処理できるようにする方法はありますか?

2010-12-19T00:41:55.827

0 投票する

1 に答える

689 参照

php - PHPDOMDocumentエラー処理

空白ifかどうかをチェックするDOMのステートメントを書き込もうとして問題が発生しました。$htmlただし、HTMLページが空白になると、DOMの下にあるすべてのものが削除されます（空白かどうかを確認する必要があったものも含まれます）。

これは、指定されたdivの画像URLを取得するだけです。これは、ページが空白のHTMLページになるまで完全に機能します。

SimpleHTMLDOMを使用してみましたが、これも機能しませんでした（作業ページの画像も取得しませんでした）。私はこれで何かを逃したのですか、それとも両方で何かを逃しただけですか？

php dom error-handling domdocument scrape

2010-12-31T02:50:25.607

0 投票する

2 に答える

1199 参照

php - Facebookのアクティビティフィードからリンクを抽出する

Facebookのアクティビティフィードからリンクを取得しようとしています。iframeからHTMLを抽出しようとしましたが、クロスドメインのために機能しません。次に、cURLを試しましたが、JavaScriptが原因で機能しません。

http://developers.facebook.com/docs/reference/plugins/activity

何か案は？

php facebook android-activity feed scrape

2011-01-05T11:54:45.850

0 投票する

2 に答える

3940 参照

php - HTML ページから MySQL DB にデータを追加する方法

属性に基づいて、HTML ページから MySQL データベースにデータを追加するにはどうすればよいですか?

すでにスクレイピングされたデータですが、リンクをテーブルの特定のフィールドにインポートし、それらからいくつかのものを削除し(うまくいきません)、別のものをテーブルの別のフィールドに削除したいと思います。

PHP/MySQL と Linux があります。curl を使用する必要がありますか? また、使用する場合、実際に MySQL DB にデータを追加するにはどうすればよいですか?

php mysql html scrape

2011-01-09T22:46:01.170

0 投票する

2 に答える

4489 参照

c# - HTML Agility Pack - Web からではなく、ファイルシステムからのみ xml ドキュメントをロードできます。

以前、Web から xhtml ページをダウンロードして、HAP を正常に使用したことがあります。ただし、現在、xml ドキュメントを読み込んで解析しようとしています。HAP は、ファイルシステム (たとえば、「C:\xml\MyXml.xml」) にある xml ドキュメントのみを読み込みます。Web (http://www.web.com/doc.xml) からは読み込まれません。Fiddler を使用すると、HAP が実際に Web 経由で xml ドキュメントを要求しており、サーバーも xml ドキュメントで応答していることがわかります。ただし、そこで停止し、何も解析されません。HtmlDocument は空で、ChildNodes も何もありません。ファイルシステムからロードすると、HtmlDocument に正常に解析されます。

何か案は？

c#.net html-agility-pack scrape

2011-01-10T10:38:00.477

0 投票する

4 に答える

1068 参照

search - ブラウザを介してGoogleのURLを取得する最も簡単な方法は？

Googleで検索したときに返されるすべてのURLを取得したいと思います。スクリプトを作成してみましたが、Googleはそれが気に入らなかったため、Cookieのサポートとキャプチャを追加するのは面倒でした。Googleの検索ページを閲覧しているときに、ページ上のすべてのURLを取得して.txtファイルに入れるか、何らかの方法で保存するものを探しています。それをする何かを知っている人はいますか？おそらく、greasemonkeyスクリプトまたはfirefoxアドオンですか？よろしくお願いします。ありがとう！

search screen-scraping web-scraping scrape

2011-01-23T15:17:39.147

0 投票する

2 に答える

667 参照

php - PHP で検索クエリからデータをスクレイピングする

私はPHPを使用していますが、これも完全な初心者です。

したがって、クエリを受け取り、いくつかの一致を含むデータファイルを返すこの URL があります。

www.example.com/search?q=$query とします。ここで、$query は検索語が何であれです。

ただし、ブラウザでその URL にアクセスすると、情報が含まれるテキストファイルがダウンロードされます。

アルファベット全体と最大 10 文字までの文字のすべての組み合わせを実行し、返されたすべてのファイルからデータを抽出してデータベースに保存したいと考えています。

PHP スクリプトから各 URL を開く方法がよくわかりません。各ファイルをダウンロードして情報を抽出してからファイルを削除するよりも、これを行うためのより良い方法はありますか?

私が以下に持っているものはまったく機能しません。

php autocomplete scrape

2011-02-03T02:12:21.767

0 投票する

1 に答える

5048 参照

analytics - リファラーヘッダーの特性からトラフィックの発信元を特定する

Web サイトへの着信トラフィックを追跡し、トラフィックの発信元とそのサイトでの動作を追跡する Web アプリケーションを作成しています。これにより、マーケティングキャンペーンの投資収益率、実際のキーワード、および(Google ではなく) Google にとっての価値と、トラフィックの損失、および支出の損失です。

これには、最初にアクセスしたページのブラウザからのリファラー情報を確認することが含まれます。Google Organic や Google Paid Search などのリファラーは、正規表現マッチングを使用してリファラー内の特定の文字列を探すことで簡単に識別できます (私は php の $_SERVER を使用しています)。Bing、Ask、Yahoo、LinkedIn、Facebook についても同様です。

しかし、Google コンテンツネットワークという特定のソースに問題があります。これらの広告からのトラフィックには、http://googleads.g.doubleclick.net/pagead/ads? コーディングが明らかに簡単な素敵なリンクが含まれていることがあります。一方、当社の広告を表示するサイトからのトラフィックには、ハードコードされたリンクのように、サイト自体のリファラーが含まれることがあります。この 2 番目のハードコードタイプのリンクは、通常の参照トラフィックと区別できないため、問題を引き起こしています。

したがって、広告が指している URL に「?source=gcn」のようなタグを付けるか、参照ページをスクレイピングしてハードコードされたリンクまたは Google 広告の iframe を探す以外に、この問題を克服するための魔法のソースを持っている人はいますか? ?

前もって感謝します

ロス

analytics referrer scrape google-ads-api

2011-02-03T11:22:58.400

0 投票する

2 に答える

840 参照

c# - ログインが必要なウェブサイトをスクレイプする方法-example.com

.net（Webclient、webrequest、responseなど）を使用してWebサイトをスクリーンスクレイピングしようとしています。多くの方法を試しましたが、何も機能しないようです。

私はいつも「このコンテンツを見るためにログインしてください！」と表示されます。完全なオークション情報の代わりにサイト：http：//www.example.com/en/auctions/auto-details/107891/

post方式でログインデータを送信しています

助けてください

c#.net scrape

2011-02-04T12:55:45.857

0 投票する

2 に答える

1699 参照

python - HTMLヘッダーから値を取得し、PythonでCSVファイルとして保存する

全て、

Python（v 2.7.1）を使い始めたばかりで、最初のプログラムの1つは、標準ライブラリとBeautifulSoupを使用してHTML要素を処理することで発電所データを含むWebサイトから情報を取得しようとしています。

アクセスしたいデータは、HTMLの「Head」セクションまたは本体内のテーブルとして取得できます。CSVリンクをクリックすると、WebサイトはそのデータからCSVファイルを生成します。

このウェブサイトのいくつかのソースを使用して、データを引き出してファイルに保存する以下のコードをまとめることができましたが、\n指定子が含まれています。できる限り試してみてください。保存する正しいCSVファイルを取得できません。

簡単なことだと思いますが、可能であれば少し助けが必要です。

python html web csv scrape

2011-02-06T17:23:39.553

問題タブ [scrape]

Reference