1

私が最近取り組んでいるサイトでは、データベースに問題がありました。テーブルを復元したときに、奇妙な記号 (半角記号や度記号など) を含むテキスト フィールドが破損したようです。テキスト フィールドはその記号の前の文字で停止していました)。テーブルのコピーを取得し、それを以下のコードに要約しました。

    CREATE TABLE `products2` (
      `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
      `description` text CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
      PRIMARY KEY (`id`)
    ) DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;


    insert  into products2 values  
(25, 0x

これはエラーをスローします:

#1366 - Incorrect string value: '\xBD Digi...' for column 'description' at row 1 

stackoverflow と Web でこの問題を調べると、エンコーディングの問題のようです。説明フィールドの照合を utf_unicode_ci に変更し、テーブルの照合を utf_bin (およびそれらのすべての組み合わせ) に変更してみました。役立たず。

バックアップなので、ダンプをやり直すことはできません。システムがダンプを出力する方法を理解していませんが、それを受け入れることはできません-おそらくバックアップはコマンドライン経由で行われ(確かではありません)、PHPMyAdminを使用して復元していますが、それが違いを生むかどうかはわかりません。

データをインポートできない場合は、エンコードされたデータをテキストに読み込んで手動でカット アンド ペーストする方法を教えていただければ幸いです。

4

1 に答える 1

5

最初の32バイトをASCIIとしてデコードすると、次のようになります(MySQLが文句を言って?いるバイトはどこにありますか)。0xBD

DPM 912は大きい3ですか?桁 

「DPM912」のグーグルの少しは、キャラクターが下品な半分の分数、1/2であるべきだと私に示唆しています。

多くの文字セットがその文字をバイト0xBDでエンコードしますが、特に1つは飛び出します:windows-1252—これは(Unicode以前の)Windowsの世界のデフォルトのコードページであるだけでなく、MySQLのデフォルトのエンコードでもあります。データがでエンコードされていると推測できますwindows-1252

MySQLのマニュアルで説明されているように、文字列リテラルのエンコーディングを指定するには、文字列リテラルの前にエンコーディング名を付けます。

文字列リテラルには、オプションの文字セットのイントロデューサとCOLLATE句が含まれる場合があります。

[_charset_name]'string' [COLLATE collat​​ion_name]

それは続けて言う:

イントロデューサは、標準の16進リテラルおよび数値の16進リテラル表記(x'literal'および0xnnnn)の前、またはビットフィールドリテラル表記(b'literal'および0bnnnn)の前でも有効です。

したがって(そしてMySQLはを参照しているためwindows-1252) 、コマンドを次のようにlatin1変更できます。INSERT

INSERT INTO products2 VALUES (25, _latin1 0x5468652044504D203931322069...);

ドキュメントには次のようにも記載されています。

単純なステートメントの場合、文字列には、およびシステム変数SELECT 'string'によって定義された文字セットと照合が含まれます。character_set_connectioncollation_connection

つまり、そのようなイントロデューサが省略された場合(元のステートメントの場合のように)、文字セットはシステム変数INSERTによって定義されたものと見なされます。character_set_connection

ここで述べたように、その変数を設定する方法はいくつかあります(クライアントが接続するときに変数を指定するなど、phpMyAdminでは[DefaultCharset]構成オプションが設定されています。デフォルトはlatin1v3.4より前ですが、それutf8以降は-おそらく、この変更が問題の原因です。インポートファイルの文字セットを[Import][charset])で指定することもできます。接続時に目的の文字セットを指定しない場合は、接続後、INSERTコマンドが修正する前にこれらのコマンドのいずれかを発行します(たとえば、ダンプファイルの先頭にそれらの1つを追加できます)。

SET NAMES 'latin1';
SET CHARACTER SET latin1;
SET character_set_connection = latin1;

ダンプファイルを可能な限り移植可能にする私の推奨事項は、SET NAMES 'latin1'その先頭に追加することです。

于 2012-05-02T15:48:23.863 に答える