問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1718 参照

python - Scrapy InIt self.initialized() -- 初期化していません

Scrapy を使用して init の Web サイトにログインしようとしています。ログインを確認した後、start_urls を介して標準クロールを初期化して開始します。何がうまくいかないのかわかりませんが、ログインに明確になり、すべてが確認されますが、parse_item は開始されません。どんな助けでも大歓迎です。

「================ログインに成功しました================」まで取得できます

しかし

"=========================PARSE ITEM================にたどり着けない===========

0 投票する
2 に答える
528 参照

python-2.7 - Scraperwiki スクレイプ クエリ: lxml を使用してリンクを抽出する

これは些細なクエリだと思いますが、構築しようとしているスクレーパーで lxml を使用して取得したクエリで誰かが私を助けてくれることを願っています。

https://scraperwiki.com/scrapers/thisisscraper/

私はチュートリアル 3 を 1 行ずつ進めており、次のページへのリンクを抽出しようとしています。cssselect を使用してリンクを識別することはできますが、アンカー タグ全体ではなく、href 属性だけを分離する方法がわかりません。

誰でも助けることができますか?

0 投票する
3 に答える
448 参照

php - このサイトからタイトルを削除できないのはなぜですか?

私はsimple-html-domを使用して、指定されたサイトからタイトルを削除しています。

私が試した他のサイト、たとえばapple.comなど。

しかし、pottermore.comと入力しても、何も出力されません。Pottermoreにはフラッシュ要素がありますが、タイトルを削り取ろうとしているホーム画面にはフラッシュがなく、htmlだけです。

0 投票する
1 に答える
540 参照

ruby - How can I make my scraper website-design-change-tolerant?

I have written a web scraper in ruby . But the websites that I am scraping hav changed their design.Thus my scraper is failing. Is there a smart and simple solution to solve this kind of an inherent problem of scrapers? (for eg.. using some kind of pattern matching, xpaths,comparing DOM tress...etc)

In above example code snippet I am scraping the the above mentioned website for poster information , date posted and comments posted with the help of css selectors for one web page. Now suppose if the webmaster changes the layout of the forum. The css selectors will fail and thus my whole scraper will fail. I do not want to update my scraper everytime the website's layout changes. So is there any way that my scraper detect the website layout change and it would be able to correctly find the path to the desired destination?Becuase I have no way to know when the website will change.. I am just trying to make my scraper automated and fault tolerant

0 投票する
2 に答える
505 参照

node.js - スクリプト化されたブラウザ スカッパー

次のことを実現するには、ブラウザのスクリプトを作成するか、サーバーにリクエストを送信し、ログインし、サイトを閲覧します。リンクを見つけて、それらのリンクに移動します。

とりあえずNodeJSにハマっているので、node.ioを見ていました。非常に簡単にサイトをスクレイピングできますが、問題は、(ログインするために) 投稿しようとすると、何も返されないことです!

しかし、私はただ得ます

ログインに失敗した場合でも、ログイン後に取得する必要がありますconsole.logか?


次に、代わりにブラウザをスクリプト化してこれを実装する方がよいと考えていましたが、実際のリクエストをより厳密にシミュレートできますか?

0 投票する
1 に答える
3217 参照

facebook - Facebook Open Graph スクレイピング URL

「欲しい」ボタンと「自分の」ボタンを開発しようとしています。

Facebook デバッグ ツールを使用すると、最終的な URL がホームページであることがわかります。これは、ページがリダイレクトされたために発生したものであり、望ましくありません。取得した URL をスクレイピングしたい。

最終 URLがアイテム ページではないため、スクレイピングされた情報が正しくなく、デバッグ ツールがメタデータの不足などを訴えます。正しい情報はアイテム ページにあると思いますが、リダイレクトにより、誤った情報が表示されます。解析されました。

私の質問は次のとおりです。

1) なぜこれが起こっているのですか? -回答: 末尾のスラッシュが ISAPI ルールに違反しています

2) どうすれば修正できますか? -回答: 末尾のスラッシュを削除するか、ISAPI ルールを更新してください

3) スクレイパーに特定の URL を使用させ、リダイレクトを無視させることはできますか? 私はasp.netを使用しているので、どんな例でも大歓迎です。

以前は正しいページがスクレイピングされていましたが、現在はそうではなく、何がこれを変更したのか本当にわかりません....

前もって感謝します。

0 投票する
3 に答える
288132 参照

html - XPath:: 次の兄弟を取得

次の HTML 構造があります。DOM 内にこれらのタグが多数あるため、2 番目の色のダイジェスト要素を抽出するための堅牢な方法を構築しようとしています。

デコードされた値を持つ 2 番目の「カラー ダイジェスト」td 要素を抽出しようとしています。

次の xpath を書きましたが、2 番目の要素を取得する代わりに、2 番目の td 要素を取得していません。

そして、それを td[2] から td[1] に変更すると、両方の要素が取得されます。

0 投票する
7 に答える
140235 参照

python - BeautifulSoup:アンカータグからテキストを抽出します

抽出したい:

  • imageタグの次のsrcからのテキストと
  • divクラスデータ内にあるアンカータグのテキスト

img srcを正常に抽出できましたが、アンカータグからテキストを抽出するのに問題があります。

HTMLページ全体へのリンクは次のとおりです。

これが私のコードです:

私がやろうとしているのは、画像src(リンク)とその中のタイトルを抽出するdiv class=dataことです。たとえば、次のようになります。

抽出する必要があります:

Nikon COOLPIX L26 16.1 MP Digital Camera with 5x Zoom NIKKOR Glass Lens and 3-inch LCD (Red)

0 投票する
2 に答える
228 参照

php - PHPは、拡張子のないリモートイメージをスクレイプします

私は、リモートサイトから特定の画像をスクレイプし、テキストフィールドに貼り付けるときにそれらを表示する画像スクレーパーを開発しました。ロジックには、.jpg.jpegで終わる画像の検索が含まれます。pngなど

多くのサイトがJavaScriptを介して画像を生成するか、表示された画像の一部として画像拡張子がないという問題が発生しています。次のようなサイトの例

www.express.comとwww.underarmour.comには、この問題とその他多くの問題があります。

設定されたURLから画像を検索し、それに応じてファイル拡張子のない画像を表示するには、どの関数を使用できますか?

再度、感謝します。

0 投票する
2 に答える
57 参照

php - ページの html タグの数を取得するための優れた方法論

これを行う良い方法を探しています: 私の現在の方法では、php.iniデフォルトの実行時間と最大メモリ使用量を増やすことを期待して設定を編集した後でも、30-40 を超える深さの検索は許可されていないようです。基本的に、検索の深さがこの量を超えるとすぐに、サーバーがクラッシュします。

これが私のコードです(private function _ParseHtml($html, $depth = nDepth):

_Invoke()スクレイプ機能のメインコードと同様に: