問題タブ [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
474 参照

django - lxmlがdjango、scraperwikiで機能しない

私は、イリノイ州の総会 Web サイトを経由していくつかの pdf をスクレイピングする django アプリに取り組んでいます。デスクトップに展開している間は、urllib2 がタイムアウトするまで正常に動作します。Bluehost サーバーにデプロイしようとすると、コードの lxml 部分でエラーが発生します。どんな助けでも大歓迎です。

編集1 ここにエラートレースがあります

0 投票する
1 に答える
67 参照

ruby - scraperwiki.sqlite のテーブルが見つかりません

scraperwikigemを使用する Ruby のスクリプトがあります。このスクリプトのディレクトリには、というタイトルのファイルがありますscraperwiki.sqlite

それにもかかわらず、実行するとエラーが発生します。

0 投票する
1 に答える
74 参照

python - Scraperwiki Python ループの問題

Python を使用して ScraperWiki でスクレイパーを作成していますが、得られる結果に問題があります。ScraperWiki のドキュメントの基本的な例に基づいてコードを作成していますが、すべてが非常に似ているように見えるため、問題がどこにあるのかわかりません。私の結果では、ページにある最初のドキュメントのタイトル/URL を取得しますが、ループに問題があるようです。それ以降の残りのドキュメントは返されません。どんなアドバイスでも大歓迎です!

0 投票する
0 に答える
445 参照

python - スクレイパーウィキを使用してウィキペディアのインフォボックスセクションをクロールするとエラーが発生する

私はスクレイパーウィキの初心者です。スクレイパーウィキを使用してウィキページからインフォボックスを取得しようとしています。以下のリンクからwikiページをクロールするためのscraperwikiのアイデアを思いついた

https://blog.scraperwiki.com/2011/12/how-to-scrape-and-parse-wikipedia/

コード

エラー

0 投票する
2 に答える
306 参照

pdf - PDF から表を抽出する際の問題

このトピックに関するスレッドがいくつかあることは知っていますが、それらの解決策はどれもうまくいかないようです。PDF ドキュメントに表があり、そこから情報を抽出できるようにしたいと考えています。テキストをコピーして textedit に貼り付けることができます。読みやすいですが、実際には使用できません。これは、すべてのテキストが読み取り可能であることを意味しますが、データはすべてスペースで区切られており、セル内のテキスト内のスペースと列を区別する方法はありません。

しかし、タブラやスクレーパー wiki などのツールを使用しようとすると、抽出されたテキストはゴミになります。

これについてどうすればよいかについて、誰かが私に何か指針を与えることができますか?