ruby - ウェブページをスクレイピングするときの奇妙な問題とは何ですか? おそらくエンコーディングですか?

Question

次のようないくつかの Web ページを解析しようとしています。

http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/

私は Nokogiri::HTML を使用しています。最初のリンクでは問題ありませんが、2 番目のリンクではゴミが表示されるだけで、解析が不可能です。

を使用してみcurlましたが、結果は同じです。2 番目のリンクの結果のサンプルを次に示します。

��� DG;v�u�G{f�
                     ��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp

何が問題になる可能性がありますか? どちらのページもブラウザーで適切に表示され、DOM に大きな違いは見られません。

注: wget2 番目のリンクで使用すると、ファイルが読み取れなくなります。

score 2 · Accepted Answer

Web ページは圧縮されています。ヘッダーを確認してください: Content-Encoding: gzip 解凍する必要があります。

編集：

Rubyを使用している場合は、これを試してください：

cleanHtml = Zlib::GzipReader.new(StringIO.new(htmlCompressed)).read

ruby - ウェブページをスクレイピングするときの奇妙な問題とは何ですか? おそらくエンコーディングですか?

1 に答える 1

Related

Reference