php - csvのフィールドの最初の文字がありません

Question

私はphpでcsvインポートスクリプトに取り組んでいます。フィールドの先頭にある外国文字を除いて、正常に機能します。

コードは次のようになります

if (($handle = fopen($filename, "r")) !== FALSE)
{
     while (($data = fgetcsv($handle, 1000, ",")) !== FALSE) 
         $teljing[] = $data;

     fclose($handle);
}

これが私の問題を示すデータ例です

føroyskir stavir, "Kr. 201,50"
óvirkin ting, "Kr. 100,00"

これにより、次のようになります

array 
(
     [0] => array 
          (
                 [0] => 'føroyskir stavir',
                 [1] => 'Kr. 201,50'
          )
     [1] => array 
          (
                 [0] => 'virkin ting', <--- Should be 'óvirkin ting'
                 [1] => 'Kr. 100,00'
          )
)

私はこの振る舞いがphp.netのいくつかのコメントに文書化されているのを見て、行末ini_set('auto_detect_line_endings',TRUE);を検出しようとしました。失敗。

この問題に精通している人はいますか？

編集：

AJに感謝します、この問題は解決されました。

setlocale(LC_ALL, 'en_US.UTF-8');

解決策でした。

score 6 · Accepted Answer

PHPfgetcsv()マニュアルから：

"Note: Locale setting is taken into account by this function. If LANG is e.g. en_US.UTF-8, files in one-byte encoding are read wrong by this function."

score 0 · Accepted Answer

PHP.net/fgetcsvコメントからコピー：

kent at marketruler dot com 04-Feb-2010 11:18 fgetcsvは、少なくともPHP 5.3以前では、UTF-16でエンコードされたファイルでは機能しないことに注意してください。オプションは、ファイル全体をISO-8859-1（またはlatin1）に変換するか、行ごとに変換して各行をISO-8859-1エンコーディングに変換してから、str_getcsv（または互換性のある下位互換性のある実装）を使用することです。ラテン以外のアルファベットを読む必要がある場合は、UTF-8に変換するのがおそらく最善です。

PHP <5.3での下位互換性のあるバージョンについてはstr_getcsvを参照してください。また、utf16_decodeを提供するRasmusAnderssonによって記述された関数についてはutf8_decodeを参照してください。追加した変更は、BOPがファイルの先頭に表示され、後続の行には表示されないことです。したがって、エンディアンを保存し、後続の各行のデコード時にそれを再送信する必要があります。この変更されたバージョンは、エンディアンが使用できない場合、エンディアンを返します。

<?php
/**
 * Decode UTF-16 encoded strings.
 *
 * Can handle both BOM'ed data and un-BOM'ed data.
 * Assumes Big-Endian byte order if no BOM is available.
 * From: http://php.net/manual/en/function.utf8-decode.php
 *
 * @param   string  $str  UTF-16 encoded data to decode.
 * @return  string  UTF-8 / ISO encoded data.
 * @access  public
 * @version 0.1 / 2005-01-19
 * @author  Rasmus Andersson {@link http://rasmusandersson.se/}
 * @package Groupies
 */
function utf16_decode($str, &$be=null) {
    if (strlen($str) < 2) {
        return $str;
    }
    $c0 = ord($str{0});
    $c1 = ord($str{1});
    $start = 0;
    if ($c0 == 0xFE && $c1 == 0xFF) {
        $be = true;
        $start = 2;
    } else if ($c0 == 0xFF && $c1 == 0xFE) {
        $start = 2;
        $be = false;
    }
    if ($be === null) {
        $be = true;
    }
    $len = strlen($str);
    $newstr = '';
    for ($i = $start; $i < $len; $i += 2) {
        if ($be) {
            $val = ord($str{$i})   << 4;
            $val += ord($str{$i+1});
        } else {
            $val = ord($str{$i+1}) << 4;
            $val += ord($str{$i});
        }
        $newstr .= ($val == 0x228) ? "\n" : chr($val);
    }
    return $newstr;
}
?>

Trying the "setlocale" trick did not work for me, e.g.

<?php
setlocale(LC_CTYPE, "en.UTF16");
$line = fgetcsv($file, ...)
?>

しかし、それはおそらく私のプラットフォームがそれをサポートしていなかったためです。ただし、fgetcsvは区切り文字などの単一文字のみをサポートし、その文字のUTF-16バージョンを渡すと文句を言うので、私はそれをかなり早くあきらめました。

これが誰かに役立つことを願っています。

php - csvのフィールドの最初の文字がありません

2 に答える 2

Related

Reference