問題タブ [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
942 参照

python - Python + 非同期タスクの機械化

だから私はおいしいページを通り抜けてそこからいくつかのリンクをこすり落とすこのちょっとしたPythonコードを持っています. extract メソッドには、必要なコンテンツを引き出す魔法が含まれています。ただし、ページのフェッチを次々に実行するとかなり遅いです.pythonでこの非同期を実行して、いくつかのgetリクエストを起動してページを並行して処理できるようにする方法はありますか?

0 投票する
1 に答える
689 参照

php - PHPDOMDocumentエラー処理

空白ifかどうかをチェックするDOMのステートメントを書き込もうとして問題が発生しました。$htmlただし、HTMLページが空白になると、DOMの下にあるすべてのものが削除されます(空白かどうかを確認する必要があったものも含まれます)。

これは、指定されたdivの画像URLを取得するだけです。これは、ページが空白のHTMLページになるまで完全に機能します。

SimpleHTMLDOMを使用してみましたが、これも機能しませんでした(作業ページの画像も取得しませんでした)。私はこれで何かを逃したのですか、それとも両方で何かを逃しただけですか?

0 投票する
2 に答える
1199 参照

php - Facebookのアクティビティフィードからリンクを抽出する

Facebookのアクティビティフィードからリンクを取得しようとしています。iframeからHTMLを抽出しようとしましたが、クロスドメインのために機能しません。次に、cURLを試しましたが、JavaScriptが原因で機能しません。

http://developers.facebook.com/docs/reference/plugins/activity

何か案は?

0 投票する
2 に答える
3940 参照

php - HTML ページから MySQL DB にデータを追加する方法

属性に基づいて、HTML ページから MySQL データベースにデータを追加するにはどうすればよいですか?

すでにスクレイピングされたデータですが、リンクをテーブルの特定のフィールドにインポートし、それらからいくつかのものを削除し(うまくいきません)、別のものをテーブルの別のフィールドに削除したいと思います。

PHP/MySQL と Linux があります。curl を使用する必要がありますか? また、使用する場合、実際に MySQL DB にデータを追加するにはどうすればよいですか?

0 投票する
2 に答える
4489 参照

c# - HTML Agility Pack - Web からではなく、ファイル システムからのみ xml ドキュメントをロードできます。

以前、Web から xhtml ページをダウンロードして、HAP を正常に使用したことがあります。ただし、現在、xml ドキュメントを読み込んで解析しようとしています。HAP は、ファイル システム (たとえば、「C:\xml\MyXml.xml」) にある xml ドキュメントのみを読み込みます。Web (http://www.web.com/doc.xml) からは読み込まれません。Fiddler を使用すると、HAP が実際に Web 経由で xml ドキュメントを要求しており、サーバーも xml ドキュメントで応答していることがわかります。ただし、そこで停止し、何も解析されません。HtmlDocument は空で、ChildNodes も何もありません。ファイル システムからロードすると、HtmlDocument に正常に解析されます。

何か案は?

0 投票する
4 に答える
1068 参照

search - ブラウザを介してGoogleのURLを取得する最も簡単な方法は?

Googleで検索したときに返されるすべてのURLを取得したいと思います。スクリプトを作成してみましたが、Googleはそれが気に入らなかったため、Cookieのサポートとキャプチャを追加するのは面倒でした。Googleの検索ページを閲覧しているときに、ページ上のすべてのURLを取得して.txtファイルに入れるか、何らかの方法で保存するものを探しています。それをする何かを知っている人はいますか?おそらく、greasemonkeyスクリプトまたはfirefoxアドオンですか?よろしくお願いします。ありがとう!

0 投票する
2 に答える
667 参照

php - PHP で検索クエリからデータをスクレイピングする

私はPHPを使用していますが、これも完全な初心者です。

したがって、クエリを受け取り、いくつかの一致を含むデータ ファイルを返すこの URL があります。

www.example.com/search?q=$query とします。ここで、$query は検索語が何であれです。

ただし、ブラウザでその URL にアクセスすると、情報が含まれるテキスト ファイルがダウンロードされます。

アルファベット全体と最大 10 文字までの文字のすべての組み合わせを実行し、返されたすべてのファイルからデータを抽出してデータベースに保存したいと考えています。

PHP スクリプトから各 URL を開く方法がよくわかりません。各ファイルをダウンロードして情報を抽出してからファイルを削除するよりも、これを行うためのより良い方法はありますか?

私が以下に持っているものはまったく機能しません。

0 投票する
1 に答える
5048 参照

analytics - リファラー ヘッダーの特性からトラフィックの発信元を特定する

Web サイトへの着信トラフィックを追跡し、トラフィックの発信元とそのサイトでの動作を追跡する Web アプリケーションを作成しています。これにより、マーケティング キャンペーンの投資収益率、実際のキーワード、および(Google ではなく) Google にとっての価値と、トラフィックの損失、および支出の損失です。

これには、最初にアクセスしたページのブラウザからのリファラー情報を確認することが含まれます。Google Organic や Google Paid Search などのリファラーは、正規表現マッチングを使用してリファラー内の特定の文字列を探すことで簡単に識別できます (私は php の $_SERVER を使用しています)。Bing、Ask、Yahoo、LinkedIn、Facebook についても同様です。

しかし、Google コンテンツ ネットワークという特定のソースに問題があります。これらの広告からのトラフィックには、http://googleads.g.doubleclick.net/pagead/ads? コーディングが明らかに簡単な素敵なリンクが含まれていることがあります。一方、当社の広告を表示するサイトからのトラフィックには、ハード コードされたリンクのように、サイト自体のリファラーが含まれることがあります。この 2 番目のハード コード タイプのリンクは、通常の参照トラフィックと区別できないため、問題を引き起こしています。

したがって、広告が指している URL に「?source=gcn」のようなタグを付けるか、参照ページをスクレイピングしてハードコードされたリンクまたは Google 広告の iframe を探す以外に、この問題を克服するための魔法のソースを持っている人はいますか? ?

前もって感謝します

ロス

0 投票する
2 に答える
840 参照

c# - ログインが必要なウェブサイトをスクレイプする方法-example.com

.net(Webclient、webrequest、responseなど)を使用してWebサイトをスクリーンスクレイピングしようとしています。多くの方法を試しましたが、何も機能しないようです。

私はいつも「このコンテンツを見るためにログインしてください!」と表示されます。完全なオークション情報の代わりにサイト:http://www.example.com/en/auctions/auto-details/107891/

post方式でログインデータを送信しています

助けてください

0 投票する
2 に答える
1699 参照

python - HTMLヘッダーから値を取得し、PythonでCSVファイルとして保存する

全て、

Python(v 2.7.1)を使い始めたばかりで、最初のプログラムの1つは、標準ライブラリとBeautifulSoupを使用してHTML要素を処理することで発電所データを含むWebサイトから情報を取得しようとしています。

アクセスしたいデータは、HTMLの「Head」セクションまたは本体内のテーブルとして取得できます。CSVリンクをクリックすると、WebサイトはそのデータからCSVファイルを生成します。

このウェブサイトのいくつかのソースを使用して、データを引き出してファイルに保存する以下のコードをまとめることができましたが、\n指定子が含まれています。できる限り試してみてください。保存する正しいCSVファイルを取得できません。

簡単なことだと思いますが、可能であれば少し助けが必要です。