11

外部ソースからプレーンテキスト エディター (TextMate や Sublime Text 2 など) にテキストを貼り付ける場合、よくある問題は、特殊文字も貼り付けられることが多いことです。これらの文字の一部は正常にレンダリングされますが、ソースによっては正しく表示されない場合があります (通常、ボックスで囲まれたクエスチョン マークとして表示されます)。

したがって、これは実際には2つの質問です。

  1. 特殊文字 (' や ♥ など) が与えられた場合、テキスト エディター内でその文字を表示するために使用される UTF-8 文字コードを特定したり、それらの文字を文字コードに変換したりできますか?

  2. ゴミとして入ってくる「特別な」文字について、ソーステキストでその文字を表示するためにどのエンコーディングが使用されたかを把握する方法はありますか?また、それらの文字を何らかの方法で UTF-8 に変換できますか?

4

2 に答える 2

18

文字を検索するための私のお気に入りのサイトはfileformat.infoです。各文字とそのさまざまなエンコーディングに関する多くの有用な情報を含む優れた Unicode 文字検索があります。

ボックス付きの疑問符が表示されている場合は、解釈できないものを貼り付けたことを意味します。多くの場合、それは正当な UTF-8 ではないためです (すべてのバイト シーケンスが正当な UTF-8 であるとは限りません)。1 つの可能性は、エディターが想定していないエンディアン モードの UTF-16 であるということです。完全な元のソースをファイルに取得できる場合、fileコマンドは多くの場合、エンコーディングを決定するための最適なツールです。

于 2012-11-01T03:45:41.497 に答える
8

&whatでは、文字の検索に特化したツールを作成しました。すべての Unicode および HTML エンティティ テーブルのインデックスを作成するだけでなく、ハッカー辞書と私が収集したキーワードのデータベースを補足するのでheartquotweatherumlauthash、などの単語を検索して、cloverleaf必要なものを取得できます。検索に集中することで、イライラする可能性がある Unicode ページを探し回る必要がなくなります。試してみる。

于 2013-08-06T16:28:41.650 に答える