問題タブ [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - lxmlがdjango、scraperwikiで機能しない
私は、イリノイ州の総会 Web サイトを経由していくつかの pdf をスクレイピングする django アプリに取り組んでいます。デスクトップに展開している間は、urllib2 がタイムアウトするまで正常に動作します。Bluehost サーバーにデプロイしようとすると、コードの lxml 部分でエラーが発生します。どんな助けでも大歓迎です。
編集1 ここにエラートレースがあります
ruby - scraperwiki.sqlite のテーブルが見つかりません
scraperwiki
gemを使用する Ruby のスクリプトがあります。このスクリプトのディレクトリには、というタイトルのファイルがありますscraperwiki.sqlite
。
それにもかかわらず、実行するとエラーが発生します。
python - Scraperwiki Python ループの問題
Python を使用して ScraperWiki でスクレイパーを作成していますが、得られる結果に問題があります。ScraperWiki のドキュメントの基本的な例に基づいてコードを作成していますが、すべてが非常に似ているように見えるため、問題がどこにあるのかわかりません。私の結果では、ページにある最初のドキュメントのタイトル/URL を取得しますが、ループに問題があるようです。それ以降の残りのドキュメントは返されません。どんなアドバイスでも大歓迎です!
python - スクレイパーウィキを使用してウィキペディアのインフォボックスセクションをクロールするとエラーが発生する
私はスクレイパーウィキの初心者です。スクレイパーウィキを使用してウィキページからインフォボックスを取得しようとしています。以下のリンクからwikiページをクロールするためのscraperwikiのアイデアを思いついた
https://blog.scraperwiki.com/2011/12/how-to-scrape-and-parse-wikipedia/
コード
エラー
pdf - PDF から表を抽出する際の問題
このトピックに関するスレッドがいくつかあることは知っていますが、それらの解決策はどれもうまくいかないようです。PDF ドキュメントに表があり、そこから情報を抽出できるようにしたいと考えています。テキストをコピーして textedit に貼り付けることができます。読みやすいですが、実際には使用できません。これは、すべてのテキストが読み取り可能であることを意味しますが、データはすべてスペースで区切られており、セル内のテキスト内のスペースと列を区別する方法はありません。
しかし、タブラやスクレーパー wiki などのツールを使用しようとすると、抽出されたテキストはゴミになります。
これについてどうすればよいかについて、誰かが私に何か指針を与えることができますか?