0

単純な HTML DOM を使用していますが、一部のサイトで使用すると奇妙な結果が得られます。

これは、このリンクから生成される HTML 出力です。

���������������� 

ソースを確認しましたが、めちゃくちゃです。

また、このサイトで使用しようとするとハングします。また、HTML がめちゃくちゃです。

何か案は?

編集:コードブロックが追加されました:

以下の$str変数は、CURL リクエスト内の私のコードで以前に定義されています。

私はCURLリクエストを使用しています

$html = str_get_html($str);
$images = array();
if($html !='') {
    foreach($html->find('img') as $element) {
        if(strtolower(substr($element->src, -4)) != '.gif') {
            $images[] = url_to_absolute($baseURL, $element->src);
            }
    }
}
4

2 に答える 2

0

私はこの問題を抱えていますが、文字セットではありませんでした 問題は単純なhtml domが処理できないgzip圧縮でした これが私の解決策です 単純なhtml domの文字エンコーディングの問題

于 2012-06-22T13:28:42.250 に答える
0

� 常にエンコードの問題のように見えます。

utf8_decode / utf8_encode が役立つかもしれません。

于 2012-01-18T08:56:44.993 に答える