問題タブ [surrogate-pairs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
115 参照

c# - xUnit.net: これら 2 つの同等のテストの結果が異なるのはなぜですか?

何らかの理由で、このテストを利用するInlineDataと xUnit で失敗します。

を使用するこれはMemberData、次を渡します。

これの理由は何ですか?xUnit.net でバグを発見しましたか? (私はそれがサロゲート文字\uD800であるという事実と関係があるかもしれないと思います、そしてそれが通過するときにどういうわけか2文字に変換されています.しかし、理由はわかりません.)InlineData

0 投票する
2 に答える
356 参照

python - アストラル界を含む Unicode 範囲の Python セマンティクス

範囲の一方または両方のエンドポイントが BMP の外にある場合、正規表現の文字範囲の意図されたセマンティクスは正確には何ですか? Python 2.7 と 3.5 では、次の入力の動作が異なることがわかりました。

私の 2.7 では が得られFalse、3.5 では が得られTrueます。後者は私には理にかなっています。前者はおそらく\U00021111サロゲートペアで表されているためですが、それでも問題なく含まれているはずな\ud844\udd11のでわかりません。\u1000-\ud844\u1234

  • これはどこかに指定されていますか?
  • これは意図した動作ですか?
  • これは Python のバージョンに依存するだけですか、それとも UTF-16 と UTF-32 に関するコンパイル時のフラグにも依存しますか?
  • 大文字と小文字を区別せずに一貫した動作を得る方法はありますか?
  • ケースの区別が避けられない場合、正確にはどのような条件がありますか?
0 投票する
2 に答える
15575 参照

python - Pythonでサロゲートペアを通常の文字列に変換するにはどうすればよいですか?

これは絵文字への変換 のフォローアップです。その質問では、OP にはjson.dumps()、サロゲート ペアとして表される絵文字を含む - エンコードされたファイルがありました - \ud83d\ude4f。彼女/彼はファイルを読んで絵文字を正しく翻訳するのに問題があり、正しい答えjson.loads()ファイルの各行にあり、jsonモジュールはサロゲート ペアから (UTF8 でエンコードされた) 絵文字への変換を処理します。

ここに私の状況があります: サロゲートペアを含む通常の Python 3 Unicode 文字列があるとします:

この文字列を処理して絵文字の表現を取得するにはどうすればよいですか? 私はこのようなものを取得しようとしています:

私はもう試した:

通常、次のようなエラーが表示されUnicodeEncodeError: XXX codec can't encode character '\ud83d' in position 8: surrogates no allowedます。

$LANGに設定して、LinuxでPython 3.5.1を実行していen_US.UTF-8ます。コマンド ラインの Python インタープリターと、Sublime Text で実行されている IPython 内の両方でこれらのサンプルを実行しましたが、違いはないようです。

0 投票する
1 に答える
779 参照

java - サロゲートペアを使用して絵文字を処理するEclipse IDE

これに対する明確な答えを見つけることができません。ECLIPSE IDE は絵文字をサポートしていますか? ここでスタックオーバーフローに関するサロゲートペアについて多くのことを読みましたが、これについて明確な答えを得ることができません。

テキスト ファイルを 1 文字ずつ読み込む必要があり、FileInputStream を使用しています。

サロゲートペアを使用して絵文字を処理することは可能でしょうか? 選択したいくつかのリンゴの絵文字を使用したいと考えています。具体的には: それらを処理するということは、ファイルを読み取るときに特定の絵文字として識別したいということです。

もしそうなら、誰かが私に例を見せてもらえますか?