問題タブ [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4835 参照

python - Python と ScraperWiki で空白の値を指定して "N/A" を返す方法

こんにちは: 私は Scraperwiki と Python を初めて使用し、スクレイピングされた Web ページに私の cssselect 仕様を満たすアイテムがない場合に "NA" などを返す方法を見つけようとしています。

以下のコードでは、二重にネストされた一連の Web ページをスクレイピングしています。cssselect 属性の値を持たないサブページをスクレイピングすると、値があった最後にスクレイピングされたページの値が単純にコピーされます。

任意のヒント?ありがとう!トッド

スクレイパーウィキをインポートする urlparse をインポートする lxml.html をインポートする urllib をインポートする

デフスクレイプテーブル(ルート): 行 = root.cssselect("h2")

def Scrape_and_look_for_next_link(url): html = scraperwiki.scrape(url) print html ルート = lxml.html.fromstring(html) scrape_table(root)

ここから始める:

url = ' http://www.italaw.com/cases-by-respondent?field_case_respondent_tid=All ' Scrape_and_look_for_next_link(url)

0 投票する
1 に答える
1217 参照

python - このスクレーパー プログラムで lxml を使用してテキストを抽出する方法は?

このページの特定の要素からテキスト データをスクレイピングしようとしています (scraperwiki を使用)

そして、scraperwiki コンソールは以下を返します:

Google Chrome を使用して XPath を見つけましたが、リクエストは Chrome と同じ標準を使用していると思います

0 投票する
0 に答える
718 参照

python - スクレイパーウィキでPythonライブラリをインポートする際のエラー

私は、scraperwiki を使用して Python でコードを実行しています。ただし、このコードを実行すると、次のエラーが発生します。

トレースバック (最新の呼び出しが最後): ファイル "./code/scraper"、4 行目、scrapemark インポート スクレイプからの ImportError: Scrapemark という名前のモジュールはありません

コードは次のとおりです。

誰でもこれを修正する方法を教えてもらえますか?

0 投票する
15 に答える
125624 参照

windows - Poppler を Windows にインストールするには?

ScraperWikiの最新バージョンは、 Popplerに依存しています (または GitHub によると)。残念ながら、Windows ではなく、macOS と Linux での取得方法しか指定されていません。

簡単なグーグル検索では、あまり有望なものは何も見つかりませんでした。Windows で ScraperWiki 用に Poppler を入手する方法を知っている人はいますか?

0 投票する
1 に答える
64 参照

javascript - ScraperWiki スクレイプ頻度

これはばかげた質問かもしれませんが、私は現在、Scraperwiki を使用して Twitter をスクレイピングしています。Tho ScraperWiki の実行頻度はかなり低いです。私の知識はjavascriptに限られているため、Pythonに触れずにScraperWikiを強制的に実行してより頻繁に実行する方法はありますか?

これまでの私のコード:

Javascript:

0 投票する
1 に答える
1925 参照

python - 'sqlite3.InterfaceError: Error binding parameter 0 の修正 - おそらくサポートされていない型です。型変換や酸洗いをしてみてください。

ScraperWiki でこのスクレーパーに行き詰まっています。dir='ltr' の ul の li 要素からのテキストが欲しいだけです。このスクリプトを毎週実行すると、まったく新しい文章でありながら、文章が互いに類似している可能性があります。そのため、データに日付を含めたいのです。

次のエラーが表示されます。

このスクレーパーにデータを保存させるにはどうすればよいですか?