次のようないくつかの Web ページを解析しようとしています。
http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/
私は Nokogiri::HTML を使用しています。最初のリンクでは問題ありませんが、2 番目のリンクではゴミが表示されるだけで、解析が不可能です。
を使用してみcurl
ましたが、結果は同じです。2 番目のリンクの結果のサンプルを次に示します。
��� DG;v�u�G{f�
��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp
何が問題になる可能性がありますか? どちらのページもブラウザーで適切に表示され、DOM に大きな違いは見られません。
注: wget
2 番目のリンクで使用すると、ファイルが読み取れなくなります。