問題タブ [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1761 参照

python - サイト内の複数のリンクからデータをスクレイピングする

さまざまなサイトから大量の情報をスクレイピングするスクレイパーを構築するために、scraperwiki と python を使用したいと考えています。単一の URL を指定して、そのサイト内の各リンクからデータをスクレイピングできるかどうか疑問に思っています。

例: サイトには、さまざまなプロジェクトに関する情報が含まれており、それぞれが独自のリンク内にあります。これらのリンクのリストは必要ありませんが、リンクに含まれる実際のデータは必要です。

スクレーパーは、各リンクで同じ属性を探します。

どうすれば、または私がこれを行うことができるかを知っている人はいますか?

ありがとう!

0 投票する
1 に答える
190 参照

python - ScraperWiki を使用して div 要素から情報を取得する

ScraperWikiを使用して div-container からデータを取得する方法はありますか? 次のような HTML の行があります。

...CHAandをこすり落としたいと思い9.0ます。値 (9.0) は CSS セレクターで実行できるので問題ありませんが、どうすれば...CHA値を取得できますか?

0 投票する
1 に答える
162 参照

python - 複数の URL からのリンクのスクレイピング

ScraperWiki を使用して、london-gazette.co.uk サイトからリンクを取得しています。コードを編集して、すべて同じデータストアに照合された多数の個別の検索 URL を下部に貼り付けることができるようにするにはどうすればよいですか?

現時点では、新しい URL を貼り付けて実行を押すだけで、新しいデータが古いデータの後ろに追加されますが、速度を上げてスクレーパーを複数のデータで動作させる方法があるかどうか疑問に思っていました一度にURL?URL の「通知コード」の部分を変更します。issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

申し訳ありませんが、Stack Overflow は初めてで、コーディングの知識はほとんどありませんが、コードは次のとおりです: https://scraperwiki.com/scrapers/links_1/edit/

0 投票する
3 に答える
441 参照

python - ウィキ スクレイパーのデータにアクセスし、ローカル データベースに保存する

こんにちは、scraper-wiki で、Web ページをスクレイピングしてデータを scraper-wiki データベースに保存するスクレイパーを作成しました。今度は、scraper-wiki API に移動してデータをフェッチし、ローカル マシンの sq lite データベース。

0 投票する
1 に答える
724 参照

python - 420エラーを与えるTwitterスクレーパー

次のコードを使用して Twitter のツイートをスクレイピングしているときに、次のエラーが発生します。

失敗: 420 クライアント エラー (420) 応答時間: 479 ミリ秒、http ://search.twitter.com/search.json?q=opendata&rpp=100&lang=en&page=1

助けてください。同じコードは、ここで同じコードを持つ他の誰かのスクレーパーで動作するようです

0 投票する
1 に答える
748 参照

python - Python スクレーパーでの Unicode の問題

私はしばらく悪い perl を書いてきましたが、代わりに悪い python を書くことを学ぼうとしています。数日前から抱えていた問題について読み返しました (その結果、Unicode について非常に多くのことを知っています) が、次のコードの不正な em-dash にまだ問題があります。

(これは、スクレーパーの非常に単純化された表現です。ところで、オリジナルはサイトを使用してsitemap.xmlURL のリストを作成し、Facebook の Graph API にクエリを実行してそれぞれの情報を取得します。元のスクレーパーは次のとおりです) 。

これをデバッグしようとする私の試みは、シェイクスピアを書き換えている無限のサルをエミュレートしようとすることでした。私の通常の方法 (エラー メッセージの StackOverflow を検索し、ソリューションをコピーして貼り付ける) は失敗しました。

質問: 2 番目の URL の em ダッシュなどの拡張文字がコードを壊さずに FQL クエリで機能するように、データをエンコードするにはどうすればよいですか?

PS私は正しい質問をしているのかどうかさえ疑問に思っていurllib.urlencodeますgraph_query_root.

---8<----

ScraperWiki の実際のスクレイパーから取得したトレースバックは次のとおりです。

0 投票する
1 に答える
119 参照

python - ScraperWiki スクレイパーのデバッグ (疑似整数の生成)

これは、ScraperWiki で Python を使用して作成したスクレイパーです。

テーブルの最後のデータ行 (「York University」行) をスクレイピングする場合を除き、完全に機能します。この時点では、コードの 9 行目から 11 行目ではなく、文字列「401-500」がテーブルから取得され、割り当てられます。にdata["arwu_rank"]、これらの行が代わりに int450を に割り当てているようdata["arwu_rank"]です。何が起こっているのかをよりよく理解するために、数行の「デバッグ」コードを追加したことがわかりますが、そのデバッグ コードはそれほど深くは進んでいません。

2 つの質問があります。

  1. このような問題のトラブルシューティングなど、ScraperWiki インフラストラクチャで実行されるスクレイパーをデバッグするためのオプションは何ですか? たとえば、ステップスルーする方法はありますか?
  2. 「York University」行450に文字列「401-500」ではなくint が割り当てられている理由を教えてください。data["arwu_rank"]

編集 2013 年 5 月 6 日 20:07h UTC

次のスクレーパーは問題なく完了しますが、最初のスクレーパーが「York University」行で失敗した理由はまだわかりません。

0 投票する
2 に答える
225 参照

python - ScraperWiki データストアへのデータの追加

ScraperWiki にデータを保存するための簡単な Python スクリプトを次に示します。

結果は、データストア内の次のテーブルです。

2 番目のコマンドでは、行 1 の "b" 列の内容を空白にすることをsqlite.save指定していなかったため、これは面倒です。つまり、私の目的の結果は、データストア:"b":""

だから私の質問は: ScraperWiki データストアに連続した「保存」操作を使用する場合、上で概説したような結果を達成するために、既存のデータを上書きせずにデータを追加する最良の方法は何ですか?