現在、いくつかの Web サイトをスクレイピングするために使用される Ruby コードがいくつかあります。私がRubyを使っていたのは、当時あるサイトでRuby on Railsを使っていたからで、それが理にかなっているのです。
今、私はこれを Google App Engine に移植しようとしていますが、行き詰まり続けています。
Google App Engine で動作するように Python Mechanize を移植しましたが、XPATH を使用した DOM インスペクションをサポートしていません。
組み込みの ElementTree を試してみましたが、'&mdash' に遭遇したときに最初に指定した HTML BLOB で停止しました。
そこで ElementTree をハッキングしようとしますか、それとも何か他のものを使用しようとしますか?
ありがとう、マーク