php - 入力テキストのサニタイズ: 文字が正しくエンコードされていません

Question

Word文書からメモ帳にテキストをコピーして貼り付けると、次のような奇妙な文字が表示されます（おそらくエンコードの問題が原因です）

... of var¬ious Federal ...

「¬」は奇妙にエンコードされた記号です。PHP でテキストファイルを読むとき、これらの奇妙にエンコードされたシンボルをすべて削除したいと思います。「¬」を空の文字列に置き換えてみました

return preg_replace('/¬/', '', $string);

しかし、テキストを HTML Web ページに戻すと、別の奇妙な文字が単語の代わりに配置されるだけです。

... of var�ious Federal ...

なぜこれが起こっているのですか?それを修正するにはどうすればよいですか?

score 2 · Accepted Answer

文字セットとエンコーディングの簡単な紹介

ドキュメントが画面に表示されると、人間はドキュメントを一連の文字として解析します (コンピューターのテキスト処理では、グリフとも呼ばれます)。ただし、ドキュメントがディスクに保存されている場合、他のすべての種類のファイルと同様に、ドキュメントは一連のバイトとして書き込まれます。したがって、文字からバイトへの変換、およびその逆の変換を処理するシステムを配置する必要があります。

このような方式を文字エンコーディングと呼びます。エンコーディングはコンピューターで実装する必要があるため、適切に定義する必要があります。そのため、各エンコーディングは定義済みの文字セットのみを処理できます。これは当然のことながら文字セットと呼ばれます。

一部のエンコーディングは、常に各文字を 1 バイトで表します。これらはシングルバイトエンコーディングと呼ばれます。他のエンコーディングは各文字に複数のバイトを使用し、すべての可能な文字に対して必ずしも同じ数ではありません。これらはマルチバイトエンコーディングと呼ばれます。

要約すると、テキストドキュメントには、あらかじめ定義された文字セットから抽出された文字が論理的に含まれていますが、コンピューターはバイト単位で機能するため、文字をバイトに、またはその逆に変換する文字エンコーディングを作成します。一部のエンコーディングは、1 つの文字を表すために複数のバイトを使用するため、マルチバイトと呼ばれます。

あなたの問題に戻る

テキストファイルをディスクに保存したとき、メモ帳は何らかのエンコーディングを使用してそれを実行しました (マルチバイトエンコーディングでしたが、今のところそれがわからないことにしましょう)。テキスト内の文字¬には、バイト形式で特定の表現が与えられました。

PHP ファイルをディスクに保存したとき、ソースコードエディタは何らかのエンコーディングを使用してそれを行いました。文字¬列リテラル '/¬/' の文字には、バイト形式で特定の表現が与えられました。

デフォルトpreg_replaceでは、PHP のすべての汎用文字列関数と同様に、バイナリモードで動作します。これは、バイト単位で機能することを意味します。これは、エンコーディングを認識し、ソースを文字単位で表示するソースコードエディターとは対照的です。その結果、文字¬( NOT SIGN ) であると思われるものを置き換えるとpreg_replace、実際には一連のバイトが置き換えられます。正確な形式は、PHP ソースのエンコーディングによって異なります。

そこに問題があります。テキストファイルとソースのエンコーディングが一致しない場合、テキストに実際に何が起こるかについて、すべての賭けが外れます。

あなたが示した結果を考えると、あなたのケースで起こったことはおそらくこれです：

テキストファイルは、マルチバイトエンコーディングで保存されています。
PHP ソースはシングルバイトエンコーディングで保存されました。
¬PHP ソース内ののシングルバイト表現は¬、テキスト内ののマルチバイト表現の一部であったため、これらのバイトの1 つが消去されました。
残りのバイトはエンコーディングの規則に適合しないため、置換後のテキストを表示するプログラムは、「ここに何かがありますが、認識できる文字ではありません」という疑問符を表示します。

修正方法

上記に沿ったいくつかの可能性がありますが、それらはすべて 1 つの共通の属性を共有しています:テキストファイルのエンコーディングを知っている必要があります(これはメモ帳で簡単に行うことができます: [名前を付けて保存] をクリックし、ダイアログボックスの下部を確認します。）。次に、次のことができます。

同じエンコーディングを使用してテキストファイルと PHP ソースを保存すると、すべてが機能します。これはこれまでで最も簡単です。
テキストファイルのエンコーディングでターゲット文字を表すバイトを PHP ソースに挿入します。たとえば、テキストファイルが UTF-8 として保存されているとします。このエンコーディングは問題の文字をバイトシーケンス 0xC2 0xA2 で表すため、次のようにコードを記述してこのバイトシーケンスを置き換えることができます。
```
preg_replace("/\xc2\xa2/", '', $string)
```
テキストファイルのエンコーディングが UTF-8 のままである限り、PHP ソースのエンコーディングに関係なく機能します。

score 0 · Accepted Answer

0

try

$string = mb_convert_encoding($string, "UTF-8");
echo $string;

于 2013-09-05T22:03:05.040 に答える

php - 入力テキストのサニタイズ: 文字が正しくエンコードされていません

2 に答える 2

文字セットとエンコーディングの簡単な紹介

あなたの問題に戻る

修正方法

Related

Reference