python - スクレイパーウィキがスクレイピングされた html から行を省略するのはなぜですか?

Question

私はスクレイパーウィキに非常に単純な python スクリプトを持っています:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

私はそれを解析するためにまだ何も書いていません...今のところ、私はhtmlが欲しいだけです。

編集モードで実行すると、完全に機能します。

スケジュールされたスクレイプが実行される (または私が手動で実行する) と、数十行 (場合によっては数百行) が省略されます。

これは非常に小さな Web ページであるため、データのオーバーロードは問題になりません。何か案は？

score 0 · Accepted Answer

エディターでは、個々の印刷ステートメントが1行にまとめられて表示されます。エディターのコンソールで[詳細...]をクリックすると、全体を表示できます。

スケジュールされた実行時には、他のコンソールとまったく同じように出力されます。したがって、HTMLにキャリッジリターンがある場合は、大量の出力が得られます。

保存する出力の量を減らすために、スケジュールされた実行からの大きな出力を切り捨てます。ここで「[53行、159000文字省略]」を見てきました。

スケジュールされた実行からのstdoutがデバッグ以外の目的であるということは実際には意図されていません。使用する出力のためにデータストアに保存する必要があります。

score 0 · Accepted Answer

0

データが変数にあるようです。一度に 1 行ずつ印刷してみてください。

于 2012-03-07T14:45:19.110 に答える

2 に答える 2