問題タブ [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
109 参照

python - スクレイパーウィキがスクレイピングされた html から行を省略するのはなぜですか?

私はスクレイパーウィキに非常に単純な python スクリプトを持っています:

私はそれを解析するためにまだ何も書いていません...今のところ、私はhtmlが欲しいだけです。

編集モードで実行すると、完全に機能します。

スケジュールされたスクレイプが実行される (または私が手動で実行する) と、数十行 (場合によっては数百行) が省略されます。

これは非常に小さな Web ページであるため、データのオーバーロードは問題になりません。何か案は?

0 投票する
1 に答える
1537 参照

python - 「scraperwiki」ライブラリをローカルにインストールできますか?

PythonモジュールはscraperwikiScraperwiki.comWebインターフェイスの外部にインストールできますか?ソースは利用可能ですが、パッケージ化されていないようです。

0 投票する
2 に答える
557 参照

validation - KML フィードが Google マップで機能しなくなったのはなぜですか?

私は本当に混乱しています。

https://views.scraperwiki.com/run/hackney_council_planning_kml_output/に KML フィードがありますか?

...数週間前までは Google マップで問題なく動作していました。

http://maps.google.com/maps?q=https://views.scraperwiki.com/run/hackney_council_planning_kml_output/ ?

今では「ファイルが見つかりません」というエラーが表示されます。フィードは正常に検証されます:

http://feedvalidator.org/check.cgi?url=http%3A%2F%2Fviews.scraperwiki.com%2Frun%2Fhackney_council_planning_kml_output%2F

...これが機能しない原因は何ですか?

どうもありがとう!

0 投票する
1 に答える
574 参照

python - ScraperWiki/Python: プロパティが false の場合にレコードを除外する


ScraperWiki で次のコードを使用して、Twitter で特定のハッシュタグを検索しています。
それはうまく機能しており、ツイートで提供された郵便番号を選択しています (または、何も利用できない場合はfalseを返します)。これは、行で達成されdata['location'] = scraperwiki.geo.extract_gb_postcode(result['text'])ます。
しかし、私が興味があるのは、郵便番号情報を含むツイートだけです(これは、後で Google マップに追加されるためです)。
これを行う最も簡単な方法は何ですか?私は比較的 PHP に精通していますが、Python は私にとってまったく新しい分野です。よろしくお願いします。
おめでとう、
マーティン

0 投票する
1 に答える
291 参照

python - スクレイパーウィキでの保存と再開 - CPU 時間

こういうことをするのは初めてなので、初歩的なミスをあらかじめお詫びします。州内の姓と名を検索した結果の最初のページの legacy.com をスクレイピングしようとしています。私はプログラミングが初めてで、scraperwiki を使用してコードを作成していました。それは機能しましたが、10,000 件のクエリが処理される前に、CPU 時間を使い果たしました。現在、進行状況を保存し、時間が少なくなったときにキャッチして、中断したところから再開しようとしています。

セーブを機能させることができません。他の部分についても助けていただければ幸いです。今のところ、リンクを取得しているだけですが、リンクされたページのメイン コンテンツを保存する方法があれば、それも非常に役立ちます。

これが私のコードです:

0 投票する
2 に答える
528 参照

python-2.7 - Scraperwiki スクレイプ クエリ: lxml を使用してリンクを抽出する

これは些細なクエリだと思いますが、構築しようとしているスクレーパーで lxml を使用して取得したクエリで誰かが私を助けてくれることを願っています。

https://scraperwiki.com/scrapers/thisisscraper/

私はチュートリアル 3 を 1 行ずつ進めており、次のページへのリンクを抽出しようとしています。cssselect を使用してリンクを識別することはできますが、アンカー タグ全体ではなく、href 属性だけを分離する方法がわかりません。

誰でも助けることができますか?

0 投票する
1 に答える
69 参照

javascript - エラーを返すsqliteクエリ-理由を理解できません

これがsqliteのカスタム関数の副作用であるかどうかはわかりませんが、クエリを使用してフォームを強化しようとしていました。(ここに大まかなデモがありますhttp://www.thisisstaffordshire.co.uk/images/localpeople/ugc-images/275796/binaries/GPformMap4.html

わずかな問題は、特定の用語を使用してクエリを使用すると、クエリがデータを返すことです。

https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=htmltable&name=geoutil&apikey=a083014f-1103-47ee-86aa-e30db4aa4762&query=select%20distance(Latitude%2C%20Longitude%2C%2052.951458%2C% 20-2.032748)%20as%20distance%2C%20 *%20from%20%60swdata%60%20where%20electronic_prescription%20%3D%20%22Yes%22%20and%20early_appointments%20like%20%22%258%25% 22%20order%20by%20distance%20asc%20limit%2010

ただし、electronic_prescriptionタグを含まない他のユーザーは、次のエラーを返さないでください。

{u'エラー':u'sqliteexecute:sqlite3.Error:ユーザー定義関数で例外が発生しました'}

https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=htmltable&name=geoutil&apikey=a083014f-1103-47ee-86aa-e30db4aa4762&query=select%20distance%28Latitude%2C%20Longitude%2C%2052.951458%2C% 20-2.032748%29%20as%20distance%2C%20 *%20from%20%60swdata%60%20where%20early_appointments%20like%20%22%258%25%22%20order%20by%20distance%20asc%20limit%2010

問題は、カスタム関数を使用して2つの緯度/経度で定義されたポイントに基づいて距離を返すエラーにあると思います。

私は何を間違えましたか?さらに重要なのは、修正が簡単ですか?

0 投票する
1 に答える
135 参照

php - ScraperWiki: html を保存して 1 回だけロードする方法

スクレイパーを実行すると、次のメソッドを使用して URL が読み込まれます。

そのため、新しいコードをスクレイパーに追加して試してみるたびに、html が再度読み込まれ、かなりの時間がかかります。

$html を保存して、初回のみロードする方法はありますか?

0 投票する
1 に答える
294 参照

scraperwiki - ScraperWiki: simple_html_dom ライブラリ

ScraperWiki の simple_html_dom ライブラリについて知りたいのですが:

これと同じか、同じメソッドを使用します:

PHP シンプルな HTML DOM パーサー

ScraperWiki のスクレイパーをローカルで試すのに簡単な方法なので、これを知りたいです。

0 投票する
3 に答える
455 参照

python - bs4ドキュメントの何が問題になっていますか?unwrap()サンプルコードを実行できません

私はこのようなページからいくつかの厄介なテキストを取り除こうとしています。アンカーされたリンクを保持したいのですが、ブレークとa.introを失います。unwrap()のようなものを使用してレイヤーを取り除くことができると思いましたが、エラーが発生します:TypeError: 'NoneType' object is not callable

キックについては、バージョンの違いがわからなかったため、ドキュメントのサンプルコード自体を実行してみました。

まったく同じエラーが発生します。ここで何が欠けていますか?私はScraperwiki、fwiwで働いています。