問題タブ [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
505 参照

asp.net - この ASPX サイトの ScraperWiki が同じページの検索結果しか返さないのはなぜですか?

ScraperWiki のツールを使用して、ASP を利用したサイトをスクレイピングしようとしています。

BBSmates.com Web サイトから特定の市外局番の BBS のリストを取得したいと考えています。このサイトには、一度に 20 件の BBS 検索結果が表示されるので、結果のあるページから次のページに移動するには、フォームを送信する必要があります。

このブログ投稿は、私が始めるのに役立ちました。次のコードは、市外局番 314 の BBS リストの最終ページ (79 ページ) を取得すると考えました。

ただし、取得した応答は FIRST ページです。

上で引用したブログ投稿では、彼らの場合、SubmitControlに問題があったと述べているため、このフォームで 2 つの SubmitControl を無効にしてみました。

cmdLogin を無効にすると、HTTP エラー 500 が生成されました。

ContentPlaceHolder1$Button1 を無効にしても違いはありませんでした。送信は完了しましたが、返されたページはまだ検索結果の 1 ページ目でした。

このサイトでは「Page$Next」を使用していないことに注意してください。

ASPXフォームの送信を機能させるために何をする必要があるかを理解してくれる人はいますか?

0 投票する
0 に答える
626 参照

python - ASPX リクエスト ブラウザ ログイン エミュレーション

aspx Web ページに投稿しようとしています。ログインに成功しましたが、ページのコンテンツを取得しようとしましたが、うまくいきませんでした。

ページにログインすると、redirecttmp.aspx に移動し、メイン ページが表示されます。

私のコードは現在、ログインして tmp.aspx を表示します。私が欲しいのは、実際のページを表示するスクリプトです。

現在の流れ login->tmp(display) 欲しいフロー login->tmp->default(display)

ご意見をお聞かせください?ありがとう

tmp.aspx ソース コード。(これは、スクリプトを実行したときに表示されるものです)

0 投票する
5 に答える
3115 参照

python - エラーをキャッチしてこのループを継続するためのPythonの方法は何ですか?

うまく機能する2つの関数がありますが、それらをネストして実行すると機能しなくなるようです。

いくつかの検索結果を体系的に取得しようとしています。したがってget_all_pages()、アルファベットの各文字のURLのリストを作成します。何千ものページがあることもありますが、それは問題なく機能します。次に、ページごとに、scrape_table関心のあるテーブルだけをスクレイプします。これも問題なく機能します。すべてを実行でき、正常に動作しますが、Scraperwikiで作業しており、実行して離れるように設定すると、必ず「リストインデックスが範囲外です」というエラーが発生します。try/exceptこれは間違いなくscraperwiki内の問題ですが、いくつかの句を追加し、それらに遭遇したときにエラーをログに記録することによって、問題に焦点を当てる方法を見つけたいと思います。何かのようなもの:

ただし、エラーを一般的にログに記録する方法を理解できていません。また、上記は不格好に見えます。私の経験では、何かが不格好に見える場合、Pythonの方が優れています。もっと良い方法はありますか?

0 投票する
2 に答える
16159 参照

python - スクレイパーウィキ + lxml. クラスを持つ要素の子の href 属性を取得するには?

URL に「アルファ」を含むリンクには、20 の異なるページから収集して一般的な URL の最後 (最後の 2 行目) に貼り付けたい多くのリンク (href) があります。href は、クラスが td の mys-elastic mys-left であるテーブルにあり、a は明らかに href 属性を含む要素です。私はこれで約1週間働いているので、どんな助けでも大歓迎です。

0 投票する
1 に答える
225 参照

python - スクレイパーウィキでセレンを動作させる方法

私はセレンとスクレイパーウィキが大好きですが、どういうわけかそれらをうまく連携させることができません。私は、scraperwiki でセレンを使用して 2 つの方法で Web サイトを開こうとしました。どちらの方法もチュートリアルから入手しました。

これは動作しません。次のエラーが表示されます。

そして、これもしません:

別のエラーが発生します:

誰かがこれの論理的な理由を見ていますか?

スクレイパーウィキのドキュメントは、セレンが「Seleniumサーバーを持っている場合にのみScraperWikiで役立つ」ことを示しています。これが何を意味するのか正確にはわかりませんが、それが問題の原因である可能性があると考えています。どんな助けでも大歓迎です。

0 投票する
1 に答える
1043 参照

python - Pythonスクレーパー(Scraperwiki)はテーブルの半分しか取得していません

ScraperwikiでPythonを使用してスクレーパーを作成する方法を学んでいます。これまでのところ順調ですが、頭を動かすことができない問題について、頭をかいて数日を過ごしました。テーブルからすべてのリンクを取得しようとしています。それは機能しますが、001から486に移動するリンクのリストから、045にのみそれらを取得し始めます。url/ sourceはWebサイト上の都市のリストであり、ソースはここで確認できます:
http:// www .tripadvisor.co.uk / pages / by_city.htmlおよび特定のhtmlはここから始まります:

私が求めているのは、「by_city_001.html」から「by_city_486.html」へのリンクです。これが私のコードです:

次のようにコードで呼び出されます。

これを実行すると、0045から始まるリンクのみが返されます。

出力(045〜486)

セレクターを次のように変更してみました。

そしてそれはこのように487の「要素」をつかみます:

しかし、これから「href」値を取得することはできません。cssselect行で「a」を選択すると最初の44リンクが失われる理由がわかりません。コードを見ましたが、手がかりがありません。

助けてくれてありがとう!

クレア

0 投票する
1 に答える
246 参照

ruby - 他の国からのプロキシ/データの取得

特定のWebサイトでは、特定の情報を表示するために特定のIPアドレスが必要です。X国の広告。Rubyスクリプト@scraperwikiでプロキシ(できればRuby 1)を使用して、その国Xにいるかのように結果を取得できるかどうかを知りたいです。現在、スクリプトはで結果を取得します。英国で、HTTPプロキシを使用すると、データを正しく取得したいWebサイトが表示されます。問題は、ScraperwikiがX国にあるかのようにWebページを返さないことです。

0 投票する
3 に答える
378 参照

php - スクレーパー関数のPHP変数

私はScraperWikiを使用して、オンラインストアからリンクを取得する単純なスクリーンスクレイパーを構築しています。ストアには複数のページがあるので、最初のページからすべてのリンクを取得し、ポケットベルで[次へ]ボタンを見つけ、そのURLに移動し、そこからすべてのリンクを検索し、次のページに移動します。など。

これが私がいるところです。ScraperWikiは、単純なHTMLDOMおよびCSSセレクターを使用します。

関数が関数にない場合、getLinks()関数は正常に機能しますが、関数に入れると「宣言されていない変数」エラーが発生します。私の質問は:

PHPでは、Javascriptのように、スクリプト全体で使用する空の変数/配列を宣言できますか?私はここStackでいくつかの回答を読みましたが、これは宣言する必要がないことを意味しているようですが、これは奇妙に思えます。

0 投票する
1 に答える
939 参照

php - PHP FOR ループが 2 回のループ後に停止し、終了ステータス 139

ここで、Scraper Wiki でスクレイパーを構築しています: https://scraperwiki.com/scrapers/fashfinder/edit/#

詳細が多すぎて退屈しないように、約 120 個のリンクを配列 $allLinks に読み込みます。次に、ページの下部で、次のように配列に対して FOR ループを呼び出します。

getInfo() は、提供されたリンクから製品情報を取得する関数です。この関数は、$i = 0 および $i = 1 に対して正常に動作します。次に、$i = 2 のときに何かが壊れます - ソースがスクレーパーにロードされ、すべてが停止します。エラーはありませんが、「Exit Status 139」と表示されます。

$allLinks 配列を逆にしようとしまし$allLinks = array_reverse($allLinks);たが、まったく同じことが発生しました.2ページをスクレイピングし、3ページ目に到達して突然停止しました。

ここで何がうまくいかないのかについてのアイデアはありますか? 「EXIT STATUS 139」が何を意味するのか、特にスクレイパーウィキに関して、多くの情報を見つけることができません!

0 投票する
1 に答える
117 参照

php - スクレイパーウィキ: スクレイパーがある URL では機能するのに別の URL では機能しないのはなぜですか?

これは私の最初のスクレイパーですhttps://scraperwiki.com/scrapers/my_first_scraper_1/

なんとか google.com をスクレイピングできましたが、このページはスクレイピングできませんでした。

http://subeta.net/pet_extra.php?act=read&petid=1014561

理由は?

ここからドキュメントに従いました。

https://scraperwiki.com/docs/php/php_intro_tutorial/

そして、コードが機能しない理由はありません。