php - PHP 混合 UTF-8 エンコーディング CSV の読み取り

Question

Googleで簡単だと思っていた問題がありましたが、それほど簡単ではないようです。わかりました、ここに私の問題があります：

エンコーディングが不適切で異なる CSV ファイルを読まなければなりません。CSV ファイルを事前に修正することはできないため、アプリケーションで処理する必要があります。したがって、CSV ファイルには次のエンコーディングが含まれる可能性があります。

'Ü5' と 'Möbelmarkt'は同じファイルにあります。

デコード ( utf8_decode ) すると、右側が正しく、左側 (これは正しい) が間違っています。エンコーディング ( mb_detect_encoding )を見つけようとすると、これが UTF-8 であるという答えが常に得られます。

私はまだ次の解決策を試しました：

public function convert( $str ) {
    return iconv( "Windows-1252", "UTF-8", $str );
}

と

private function getUmlauteArray() { 
    return array( 'Ã¼'=>'ü', 'Ã¤'=>'ä', 'Ã¶'=>'ö', 'Ã–'=>'Ö', 'ÃŸ'=>'ß', 'Ã '=>'à', 'Ã¡'=>'á', 'Ã¢'=>'â', 'Ã£'=>'ã', 'Ã¹'=>'ù', 'Ãº'=>'ú', 'Ã»'=>'û', 'Ã™'=>'Ù', 'Ãš'=>'Ú', 'Ã›'=>'Û', 'Ãœ'=>'Ü', 'Ã²'=>'ò', 'Ã³'=>'ó', 'Ã´'=>'ô', 'Ã¨'=>'è', 'Ã©'=>'é', 'Ãª'=>'ê', 'Ã«'=>'ë', 'Ã€'=>'À', 'Ã'=>'Á', 'Ã‚'=>'Â', 'Ãƒ'=>'Ã', 'Ã„'=>'Ä', 'Ã…'=>'Å', 'Ã‡'=>'Ç', 'Ãˆ'=>'È', 'Ã‰'=>'É', 'ÃŠ'=>'Ê', 'Ã‹'=>'Ë', 'ÃŒ'=>'Ì', 'Ã'=>'Í', 'ÃŽ'=>'Î', 'Ã'=>'Ï', 'Ã‘'=>'Ñ', 'Ã’'=>'Ò', 'Ã“'=>'Ó', 'Ã”'=>'Ô', 'Ã•'=>'Õ', 'Ã˜'=>'Ø', 'Ã¥'=>'å', 'Ã¦'=>'æ', 'Ã§'=>'ç', 'Ã¬'=>'ì', 'Ã'=>'í', 'Ã®'=>'î', 'Ã¯'=>'ï', 'Ã°'=>'ð', 'Ã±'=>'ñ', 'Ãµ'=>'õ', 'Ã¸'=>'ø', 'Ã½'=>'ý', 'Ã¿'=>'ÿ', 'â‚¬'=>'€' );
}

public function fixeUmlaute($string) {                  
    $umlaute = $this->getUmlauteArray();
    foreach ($umlaute as $key => $value){
        $value = str_replace($key, $value, $string);
    } 
    return $string;
}

と

function valid_utf8( $string ){
    return !((bool)preg_match('~[\xF5\xF6\xF7\xF8\xF9\xFA\xFB\xFC\xFD\xFE\xFF\xC0\xC1]~ms',$string));
}

エンコーディングを変更するためにGoogle検索で見つけたすべての解決策です...（おそらく、この「コレクション」は他の人に役立ちます...）では、間違った文字を実際に検出するにはどうすればよいですか、それとも私の間違いですか？

誰でもヒントを教えてもらえますか？

グリーツ

Ⅴ

score 1 · Accepted Answer

これに役立つ素敵な PHP クラスがあります: https://github.com/neitanod/forceutf8 これは、任意の文字セットを UTF8 に変換し、検出を処理します。それが役に立てば幸い。

php - PHP 混合 UTF-8 エンコーディング CSV の読み取り

1 に答える 1

Related

Reference