初めてこのようなもので作業します。内部化/テキストエンコーディングに関する他のすべてのSOFの質問を確認しました。
この部分で立ち往生したとき、私はScrapyチュートリアルを行っています:データの抽出、データを抽出すると、ヘブライ語の代わりにテキストが一連の\uXXXXとして表示されます。
たとえば、このページをスクレイピングすることで、チェックアウトすることができます。
scrapy shell http://israblog.nana10.co.il/blogread.asp?blog=167524&blogcode=13348970
hxs.select('//h2[@class="title"]/text()').extract()[0]
これは取得します
u'\u05de\u05d9 \u05d0\u05e0\u05e1 \u05e4\u05d5\u05d8\u05e0\u05e6\u05d9\u05d0\u05dc\u05d9?'
(無関係:)コンソールで印刷しようとすると、次のようになります。
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-1: cha
racter maps to <undefined>
設定でエンコーディングを設定してみて、手動で変換してみましたが、基本的には全部やってみたような気がします。
(私はこれを修正しようとしてすでに約5つのpomodorosに行きました!)
そこにあるはずのヘブライ語のテキストを取得するにはどうすればよいですか: " מי אנס פוטנציאלי?
"
(免責事項:私は最初のブログにアクセスし、 http://Israblog.co.ilに投稿しました。私はブログやブログの所有者とはまったく関係がなく、例として使用しました)