問題タブ [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python と ScraperWiki で空白の値を指定して "N/A" を返す方法
こんにちは: 私は Scraperwiki と Python を初めて使用し、スクレイピングされた Web ページに私の cssselect 仕様を満たすアイテムがない場合に "NA" などを返す方法を見つけようとしています。
以下のコードでは、二重にネストされた一連の Web ページをスクレイピングしています。cssselect 属性の値を持たないサブページをスクレイピングすると、値があった最後にスクレイピングされたページの値が単純にコピーされます。
任意のヒント?ありがとう!トッド
スクレイパーウィキをインポートする urlparse をインポートする lxml.html をインポートする urllib をインポートする
デフスクレイプテーブル(ルート): 行 = root.cssselect("h2")
def Scrape_and_look_for_next_link(url): html = scraperwiki.scrape(url) print html ルート = lxml.html.fromstring(html) scrape_table(root)
ここから始める:
url = ' http://www.italaw.com/cases-by-respondent?field_case_respondent_tid=All ' Scrape_and_look_for_next_link(url)
python - このスクレーパー プログラムで lxml を使用してテキストを抽出する方法は?
このページの特定の要素からテキスト データをスクレイピングしようとしています (scraperwiki を使用)
そして、scraperwiki コンソールは以下を返します:
Google Chrome を使用して XPath を見つけましたが、リクエストは Chrome と同じ標準を使用していると思います
python - スクレイパーウィキでPythonライブラリをインポートする際のエラー
私は、scraperwiki を使用して Python でコードを実行しています。ただし、このコードを実行すると、次のエラーが発生します。
トレースバック (最新の呼び出しが最後): ファイル "./code/scraper"、4 行目、scrapemark インポート スクレイプからの ImportError: Scrapemark という名前のモジュールはありません
コードは次のとおりです。
誰でもこれを修正する方法を教えてもらえますか?
windows - Poppler を Windows にインストールするには?
ScraperWikiの最新バージョンは、 Popplerに依存しています (または GitHub によると)。残念ながら、Windows ではなく、macOS と Linux での取得方法しか指定されていません。
簡単なグーグル検索では、あまり有望なものは何も見つかりませんでした。Windows で ScraperWiki 用に Poppler を入手する方法を知っている人はいますか?
javascript - ScraperWiki スクレイプ頻度
これはばかげた質問かもしれませんが、私は現在、Scraperwiki を使用して Twitter をスクレイピングしています。Tho ScraperWiki の実行頻度はかなり低いです。私の知識はjavascriptに限られているため、Pythonに触れずにScraperWikiを強制的に実行してより頻繁に実行する方法はありますか?
これまでの私のコード:
Javascript:
python - 'sqlite3.InterfaceError: Error binding parameter 0 の修正 - おそらくサポートされていない型です。型変換や酸洗いをしてみてください。
ScraperWiki でこのスクレーパーに行き詰まっています。dir='ltr' の ul の li 要素からのテキストが欲しいだけです。このスクリプトを毎週実行すると、まったく新しい文章でありながら、文章が互いに類似している可能性があります。そのため、データに日付を含めたいのです。
次のエラーが表示されます。
このスクレーパーにデータを保存させるにはどうすればよいですか?