問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
74 参照

facebook - 出力/レンダリングされたテキストがソース コードに表示されない

すべての Facebook ソーシャル プラグインにはこの機能があります。

Facebook の名前は Web ページで確認できますが、ソース コードを調べても Facebook の名前は表示されません。

では、その理由と方法を知る必要がありますか?

この機能は、盗作/テキスト コンテンツ パーサーを回避するために使用できます。

例: https://developers.facebook.com/docs/reference/plugins/comments/

Facebook ユーザーの名前がソース コードに存在しません。

詳しく教えてください よろしくお願いします...

0 投票する
3 に答える
3106 参照

php - PHP スクレーパー - 正規表現

PHPを使用したWebスクレイピングのチュートリアルに従おうとしています。

何が起こっているのか大まかに理解していますが、スクレイピングされたものをフィルタリングして、必要なものを正確に取得する方法がわかりません。例えば:

はタイトル タグの間のすべてを取得するようですが(.*)、正規表現を使用して特定の情報を取得できますか。彼のタイトルの中でWelcome visitor #100、ハッシュの後に来る番号をどのように取得するとしますか?

または、タグ間のすべてを取得して、後で操作する必要がありますか?

0 投票する
1 に答える
433 参照

php - ScrapePHPスクリプトを修正する必要があります

検索エンジンの結果ページをスクレイプし、クライアントのWebサイトの位置をドメインの特注のレポートスイートに出力するPHPスクリプトがあります。

Googleは2月の第1週に何かを変更したため、スクリプトでページ上のドメインを検出できませんでした。現在、元の開発者をオフィスに配置しておらず、他のスタッフもこれを解決できません。

私は問題がスクリプトのどこにあるかを知っていると確信しています。私は開発者ではないので、各行が実際に何をしているのかわからないだけです。スクリプトは、検索結果の関連するクラスを使用して、探しているものが実際にどこにあるかを判断します。

スクリプト自体は引き続き実行され、HTMLを正常に出力します。検出されていないのは、ページ上で「ドメイン」を探すというスクリプトの一部にすぎません。

問題が何であるかをアドバイスするために、おそらく私からのより多くの情報が必要になることを感謝し、必要に応じてファイル/コーディングを提供させていただきます。必要に応じて、これについても修正の費用を支払う準備ができています。

以下は、問題が発生していると私が感じるところです:-

どんな助けでも大歓迎です。

ありがとう。

0 投票する
2 に答える
191 参照

php - Foreachループは1回の反復後に終了します

私はScraperWikiを試していましたが、昨日、liDOM内のすべてのリストを取得できました。ただし、現在は1回の反復しか実行していません。

これは私のコードです

私は実際にはPHPの人ではないので、明らかな何かが欠けている可能性があります。完全なソースはhttps://scraperwiki.com/scrapers/days_of_the_year/にあります

0 投票する
1 に答える
1832 参照

javascript - PhantomJSとpjscrape-いくつかの複数のURLで失敗する

概要

PhantomJSとpjscrapeフレームワークを使用して非常に基本的なスクレーパーを作成しようとしています。

私のコード

使用されるURL配列

この最初の配列は機能せず、3番目または4番目のURLの後で失敗します

この2番目のアレイは機能し、同じサイトからのものであっても失敗しません

問題

productURLsPhantomJSを反復処理する場合、page.openオプションのコールバックは自動的に失敗を想定します。ページの読み込みが完了していない場合でも。

HTTPデバッガーの実行中にスクリプトを起動し、PhantomJSがページの読み込みエラーを報告した後もHTTPリクエストが実行されていたため、これを知っています。

ただし、。を指定して実行すると、コードは正常に機能しcategoriesURLsます。

仮定

  1. 上記のURLはすべて有効です
  2. PhantomJSとpjscrapeの両方の最新バージョンを持っています

可能な解決策

これらは私がこれまでに試した解決策です。

  1. 画像の読み込みを無効にするpage.options.loadImages = false
  2. 生成されたエラーは失敗であり、タイムアウトの失敗ではなかったためtimeoutInterval、これより大きな設定はpjs.config明らかに役に立ちませんでした。page.open

何か案は?

0 投票する
2 に答える
2746 参照

node.js - リダイレクト URL をスクレイプします。

とにかく、リダイレクト URL である Web サイトをスクレイピングする方法を知っているかもしれません。例:

http://www.toyota.com.my/に html ドキュメントがないためだと思います。そのため、応答を取得できません。実際のリダイレクト URL はhttp://www.toyota.com.my/index.htmlです。

HTML 応答がない URL を検出する方法を教えてください。

0 投票する
1 に答える
775 参照

facebook - Facebook-リンターは悪い悪いスクレーパーコードを取得します

Facebookの「いいね」ボタンのデータのカスタマイズに問題があります。カスタム画像とカスタム説明が必要です。そこで、Facebookのメタタグをヘッダー(下<head>)に配置しました。例えば:

すべての継ぎ目はHTMLに適していますが、Facebookのリンターは、本文にメタがあることを示すエラーを表示しますが、本文にメタがありません

実際、Facebookは間違ったデータをかき集めています。2行目から6行目は私のソースコードにはなく、スクレーパーによってそこに配置されていますhttp://developers.facebook.com/tools/debug/og/echo?q=http%3A%2F%2Fwww.bigboytoys.ro%2Findex.php%3FproductID%3D1212。そのため、「いい」ボタンはメタタグのコンテンツを無視します。

私のサイトは、無料で変更されたスクリプトショップとSmarty2.6.0によって提供されています。

0 投票する
2 に答える
548 参照

ruby - ページにあるアウトバウンドリンクの量をカウントするにはどうすればよいですか?

Rubyでスクレイピングを学ぶ。特定のページにあるアウトバウンドリンクの数をカウントしようとしていますが、アウトバウンドリンクのみをカウントするようにRubyに指示する方法がわかりません。

私の現在のコード:

どうすればこれを完了できますか?

0 投票する
1 に答える
731 参照

facebook - Facebookスクレーパーのコンテンツの読み取りエラー

Facebookのスクレーパーは、私のページのコンテンツを読むときに奇妙なものをスローします...

ページのURL: http ://www.protagora.hr/Stranica/O-nama/9/

スクレープデバッグ出力: https ://developers.facebook.com/tools/debug/og/object?q = http%3A%2F%2Fwww.protagora.hr%2FStranica%2FO-nama%2F9%2F

ブラウザでページにアクセスすると、すべてが正常であるのに、スクレーパーが同じデータにアクセスできなかったのはなぜですか?

助けてください。

0 投票する
4 に答える
3583 参照

python - ドメイン内のすべてのページを読み取る

ページを取得するために urllib ライブラリを使用しています。通常、私はトップレベルのドメイン名を持っており、そのドメイン内のすべてのページからいくつかの情報を抽出したいと考えています. したがって、xyz.com がある場合、コードで xyz.com/about などからデータを取得したいと思います。使用しているものは次のとおりです。

しかし、これは私にとってはうまくいきません。どんなアイデアでも大歓迎です。

ありがとう。-T