0

私は、UnicodeであるPHPのMs Word Docを読み込もうとしています。これは、ヘブライ語やアラビア語などです。しかし、それはバイナリで読み取り、いくつかの非シーン文字に変わります。いくつかのサンプルコードをグーグルで検索しましたが、どれも正しく機能しませんでした。アラビア語やヘブライ語などのUnicodeドキュメントの経験はありますか?ありがとう

4

1 に答える 1

1

PHPの欠点の1つは、(少なくとも最近まで)Unicodeを無視していたことです。あなたは通常、あなたが読んでいるものがUnicodeであるという事実を単に無視し、あなたの文書が最終的にWebブラウザがUnicodeを扱う方法を知っていることを期待することによってこれにうまくいきます。PHPは何も破壊せず、気にしません。

何をしようとしているかに応じて、Unicode処理を改善できるPHPへの追加がいくつかあります。その中には、mb_マルチバイト文字列を処理する文字列関数があります。

また、Word文書でテキストがどのようにエンコードされているかを確認する必要があります。Unicodeは多くの形式をサポートしており、最も人気があり最もコンパクトな形式はUTF-8ですが、ともUTF-16ありUTF-32ます。

于 2011-08-07T11:50:57.433 に答える