問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - NokogiriXpathダブルループ
私がやろうとしているのは、クラスのデフォルトでtdを含むコードブロックをプルすることです。これは完全に正常に機能します。しかし、次に、コードブロックのさまざまな部分を整理する必要があります。2番目のxpath呼び出しでこれを実行しようとすると、各ブロックのすべてのcomheadが出力されるたびに実行されます。
ブロックを印刷するだけの場合、各ブロックは1回印刷され、コメントヘッダーとコメントが含まれます。xpathを実行しようとすると、docで見つかったすべてのcomheadが出力され、ブロック変数を無視しているように見えます。
これを機能させる方法について何かアイデアはありますか?xpathについて何がわかりませんか?
アップデート:
php - 長時間実行されている PHP スクレーパーが 500 内部エラーを返す
ほとんどの場合、Google で質問の答えを見つけますが、今は行き詰まっています。私は、最初に Web サイトのユーザー名をスクレイピングし、次にユーザーのすべての詳細を取得するスクレイパー スクリプトに取り組んでいます。2 つのスクレイパーが関係しています。最初のスクレイパーはメイン ページを通過し、最初の名前を取得し、次にそのプロフィール ページの詳細を取得してから、次のページに進みます...私がスクレイピングしている最初のサイトの合計は1 つのメイン ページに 64 名が表示され、2 番目のページには 4 ページに 365 名以上の名前が表示されます。
最初のものはうまく機能しますが、2番目のものは500内部エラーが発生し続けます。私はスクリプトを制限して、いくつかの名前だけをスクレイピングしようとしましたが、これは魅力のように機能するので、スクリプト自体は問題ないと確信しています! 私のphp iniファイルのmax_execution_timeは1500に設定されているので、それも問題ではないと思いますが、エラーの原因となる何かがあります...たとえば、10個の名前ごとにスリープコマンドを追加すると状況が解決するかどうかはわかりませんが、さて、私は今それを試しています!
ですから、この状況を解決するのに何が役立つか考えている人がいれば、助けていただければ幸いです!
前もって感謝します、z
ruby - FF Xpather から Nokogiri -- コピペしてもいいですか?
私はこれを手動で行っていましたが、行き詰まり、なぜ機能しないのかわかりません。xpather をダウンロードしたところ、必要なアイテムへのパスとして /html/body/center/table/tbody/tr[3]/td/table が表示されます。これが正しいことを手動で確認しましたが、コードに貼り付けると、nil が返されるだけです
これが私のコードです:
私がこのようなことをすると:
ページから大量のテキストを取得します。tbody にヒットするまで要素を追加し続けることができ、その後再び nil が返されます。//html/body/center/table/*/tr[3] のようなものも試してみましたが、同じことで nil が返されました
私は何が欠けていますか?
facebook - ロケールでスクレイピングされた Facebook メタタグが機能しない
私のウェブサイトは多言語対応で、FB のようなボタンがあります。同様の投稿を別の言語で表示したいと思います。
Facebook のドキュメントによると、メタ タグ og:locale と og:locale:alternate を使用すると、スクレイパーはパラメーター「locale」とヘッダー「X-Facebook-Locale」を渡してサイト情報を取得しますが、どちらも送信しません。 (https://developers.facebook.com/docs/beta/opengraph/internationalization/)。したがって、投稿は常に en_US で終わります。
同じ問題を抱えている人はいますか?
php - Yahoo Answers API + php スクレーパー
理論的には私のニーズに一致するphpスクリプトを見つけましたが、それを機能させることができず、スクリプトが古くなっているのか、何か間違っているのか疑問に思っていました.
スクリプトは次のようになります。
しかし、有効な出力の代わりに、次のようになります。
他のキーワードで試してみましたが、結果は常に同じです。
この部分$question_id = 'test';
は公式スクリプトには含まれていませんが、それがないと私は取得し続けQuestion ID is not set!
ます.
また、それを変更したり、スクリプトの別の場所に追加したりしようとしました。考えられることはすべてでしたが、結果は常にその配列であり、[Link]
私はPHPの経験がほとんどないので、エラーを探し始めるところさえありません:/ some1が私を正しい方向に向けることができればうれしいです!
よろしく!
ps もちろん、「MYAPPID」は実際の yahoo アプリ ID に変更されます。
google-search-api - Google SEO/検索ランク情報をプログラムで取得するにはどうすればよいですか? APIまたはスクレーパー?
私は2つの値を取得するプログラム的な方法を見つけようとしています:
- 特定の用語に対する Google 検索結果でのドメインの位置
- その用語の Google 検索結果の数
現在、私のクライアントはいくつかのスクレイパー ソフトウェアを使用していますが、手動の手順が必要です。
この情報を取得するためにアクセスできる API はありますか? または、完全に自動化されたスクレーパー メソッドを検討する必要がありますか?
(これは以前に尋ねられたことは知っていますが、私の質問は少し異なります。また、以前に質問されてから状況が変わったかどうかも知りたいです。)ありがとう!
facebook - Facebook スクレイパーが私のページの一部を気に入らない
私はプレスタショップでウェブショップを構築しています。いいねボタンを統合しようとしています。一部のページでは、他のページのサムネイルを削り取っていないことがわかりました。スクレイパーが見ているものを正確に表示するページを見つけたので、ホームページは問題ありません: http://www.promotion.ro/shop http://developers.facebook.com/tools/debug/og/echo?q =http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2F
しかし、製品ページにはありません : http://promotion.ro/shop/en/christmas-gifts/3009-christmas-decoration-set.html q=http%3A%2F%2Fpromotion.ro%2Fshop%2Fen%2Fchristmas-gifts%2F3009-christmas-decoration-set.html
私は何を間違っていますか?
メタを挿入しても、まだこすりません。
php - PHPhtmlスクレイピング
サイトへの最初の投稿なので、我慢してください
さて、私はPHPの完全な初心者であり、プロジェクトでPHPを特に必要としています。私はあなたたちの何人かが助けてくれることを願っています!
基本的には、Webページをスクレイプして、特定のhtmlテーブルとその情報にアクセスしたいと思います。この情報を解析して、目的の結果にフォーマットする必要があります。
さて、どこから始めましょう.....これまでに書いた私のphpをここに示します
そのURLには、必要なテーブルが含まれています。私のコードは、その正確なテーブルを単純にエコーします。
ただし、ここで問題が発生します。私は正規表現の専門家ではなく、テーブルのデータを特定の形式で表示する必要があります。次のように、いくつかのsql挿入ステートメントを含むxmlファイルをエコーしたいと思います。
私は十分な情報を提供したことを望みます、そして私はあなたの親切な人々からの助けを大いに感謝します。
前もって感謝します。
php - PHP で Web サイトをスクレイピングする
重複の可能性:
Web ページのコンテンツ
をスクレイプする Web サイトからすべてのコンテンツをスクレイピングするには?
サイトcovers.comからいくつかのボックススコアデータをスクレイピングしようとしていますが、私の人生では、その方法がわかりません。特定の日付からボックススコアを取得したいのですがfile_get_html
、パッケージから使用すると、ページはデフォルトで今日のゲームのビューステートになりsimplehtmldom
ます。特定の日のゲームの URL を取得する方法についてのアイデアはありますか? 前もって感謝します!
ruby - Ruby/Mechanize を使用して、選択した要素の次の要素を選択する
この質問を具体的に見つけることができませんでした。うまくいけば、それが古い質問の新しいバリエーションであることに間違いはありません。
(一貫性のない) p.red 要素 text() の後にテーブルを選択できるようにしたいと考えています。ここで、「p」にはテキスト「Alphabetical」が含まれていませんが、テキスト「OVERALL」が含まれています..
DOM は次のようになります。
- テーブルはページごとに異なる数で表示されます。
その p タグの text() を取得したいだけでなく、その直後のテーブルも取得します。繰り返しますが、text() には「OVERALL」が含まれていますが、「ALPHABETICAL」は含まれていません。配列を作成し、一致しない要素を .reject() する必要がありますか? 現時点ではよくわかりません。Ruby と Mechanize を使用するのはかなり初めてです。事前に助けてくれてありがとう!