次のように、カンマで区切られた複数行の中国語の単語を含むファイルがあります,
。
你,我,他,好,但,中,国,龙
好,把,是,的,啊,人,吖,哦
次のコードを使用してそれらを配列にロードしたいと考えています。これにより、後でこの配列を使用して、記事に含まれる中国語の単語を検索できるようになります。
$ds = file($Dictionary);
$_SP_ = chr(0xFF).chr(0xFE);
$array = array();
foreach($ds as $d)
{
$spstr = _SP_;//
$spstr = iconv(ucs-2be, 'utf-8', $spstr);
$ws = explode(',', $d);//array of single Chinese word
$wall = iconv('utf-8', ucs-2be, join($spstr, $ws));//what is $wall used for?
$ws = explode(_SP_, $wall);
foreach($ws as $estr)
{
$array[$estr] = strlen($estr);
}
}
私の質問:
$_SP_ = chr(0xFF).chr(0xFE) mean?chr(0xFF).chr(0xFE)
ASCII の最後の 2 文字から取得した文字列とは何ですか?SPを ucs-2b から utf-8 形式に変換する必要があるのはなぜですか?
再び文字列に変換されますが、utf-8 型で
$ws
区切られているのはなぜですか。chr(0xFF).chr(0xFE)
なぜすべての単語の長さが必要なのですか?
なぜ
$spstr
UCS-2beタイプなのか? の組み合わせだからchr(0xFF).chr(0xFE)
?