問題タブ [surrogate-pairs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - xUnit.net: これら 2 つの同等のテストの結果が異なるのはなぜですか?
何らかの理由で、このテストを利用するInlineData
と xUnit で失敗します。
を使用するこれはMemberData
、次を渡します。
これの理由は何ですか?xUnit.net でバグを発見しましたか? (私はそれがサロゲート文字\uD800
であるという事実と関係があるかもしれないと思います、そしてそれが通過するときにどういうわけか2文字に変換されています.しかし、理由はわかりません.)InlineData
python - アストラル界を含む Unicode 範囲の Python セマンティクス
範囲の一方または両方のエンドポイントが BMP の外にある場合、正規表現の文字範囲の意図されたセマンティクスは正確には何ですか? Python 2.7 と 3.5 では、次の入力の動作が異なることがわかりました。
私の 2.7 では が得られFalse
、3.5 では が得られTrue
ます。後者は私には理にかなっています。前者はおそらく\U00021111
サロゲートペアで表されているためですが、それでも問題なく含まれているはずな\ud844\udd11
のでわかりません。\u1000-\ud844
\u1234
- これはどこかに指定されていますか?
- これは意図した動作ですか?
- これは Python のバージョンに依存するだけですか、それとも UTF-16 と UTF-32 に関するコンパイル時のフラグにも依存しますか?
- 大文字と小文字を区別せずに一貫した動作を得る方法はありますか?
- ケースの区別が避けられない場合、正確にはどのような条件がありますか?
python - Pythonでサロゲートペアを通常の文字列に変換するにはどうすればよいですか?
これは絵文字への変換 のフォローアップです。その質問では、OP にはjson.dumps()
、サロゲート ペアとして表される絵文字を含む - エンコードされたファイルがありました - \ud83d\ude4f
。彼女/彼はファイルを読んで絵文字を正しく翻訳するのに問題があり、正しい答えはjson.loads()
ファイルの各行にあり、json
モジュールはサロゲート ペアから (UTF8 でエンコードされた) 絵文字への変換を処理します。
ここに私の状況があります: サロゲートペアを含む通常の Python 3 Unicode 文字列があるとします:
この文字列を処理して絵文字の表現を取得するにはどうすればよいですか? 私はこのようなものを取得しようとしています:
私はもう試した:
通常、次のようなエラーが表示されUnicodeEncodeError: XXX codec can't encode character '\ud83d' in position 8: surrogates no allowed
ます。
$LANG
に設定して、LinuxでPython 3.5.1を実行していen_US.UTF-8
ます。コマンド ラインの Python インタープリターと、Sublime Text で実行されている IPython 内の両方でこれらのサンプルを実行しましたが、違いはないようです。
java - サロゲートペアを使用して絵文字を処理するEclipse IDE
これに対する明確な答えを見つけることができません。ECLIPSE IDE は絵文字をサポートしていますか? ここでスタックオーバーフローに関するサロゲートペアについて多くのことを読みましたが、これについて明確な答えを得ることができません。
テキスト ファイルを 1 文字ずつ読み込む必要があり、FileInputStream を使用しています。
サロゲートペアを使用して絵文字を処理することは可能でしょうか? 選択したいくつかのリンゴの絵文字を使用したいと考えています。具体的には: それらを処理するということは、ファイルを読み取るときに特定の絵文字として識別したいということです。
もしそうなら、誰かが私に例を見せてもらえますか?