問題タブ [ucs2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - C++ 文字列: UTF-8 または 16 ビット エンコーディング?
私はまだ、(ホーム) プロジェクトでUTF-8文字列 (必要に応じて追加の UTF-8 固有の関数を使用して std::string で実装) を使用するか、16 ビット文字列 (std: として実装) を使用するかを決定しようとしています。 :wstring)。このプロジェクトは、プログラミング言語と環境です (VB のように、両方を組み合わせたものです)。
いくつかの希望/制約があります:
- メモリが限られているコンピュータなど、限られたハードウェアで実行できれば素晴らしいと思います。
- Windows、Mac、および (リソースが許せば) Linux でコードを実行したいと考えています。
- GUI レイヤーとしてwxWidgetsを使用しますが、そのツールキットと対話するコードをコードベースの隅に閉じ込めたいと考えています (非 GUI 実行可能ファイルを用意します)。
- ユーザーに表示されるテキストとアプリケーションのデータを操作するときに、2 つの異なる種類の文字列を操作することは避けたいと思います。
現在、必要な場合にのみ UTF-8 操作関数を使用する目的で、std::string を使用しています。必要なメモリが少なくて済み、とにかく多くのアプリケーションが進んでいるようです。
ruby - UCS2 文字列を UTF8 に変換するにはどうすればよいですか?
RubyでUCS2(1文字あたり2バイト)の文字列をUTF8文字列に変換する方法は?
c++ - UCS-2LE テキスト ファイルの解析
Microsoft レポート ツールを使用して作成されたテキスト ファイルがあります。テキスト ファイルにはBOM
0xFFFE
、先頭に が含まれ、次にASCII
文字間にヌルがある文字出力 (" F.i.e.l.d.1.
") が含まれます。これを使用して、これを入力形式および出力形式として使用iconv
するように変換できます...うまく機能します。UTF-8
UCS-2LE
UTF-8
私の問題は、UCS-2LE
ファイルから文字列に行単位で読み取り、フィールド値を解析してからASCII
テキスト ファイル (つまりField1 Field2
) に書き出すことです。string
のおよびwstring
ベースのバージョンを試しましたgetline
– ファイルから文字列を読み取る間、関数のような関数substr(start, length)
は文字列を値として解釈する8-bit
ため、開始値と長さの値はオフです。
UCS-2LE
データをC++
文字列に読み込み、データ値を抽出するにはどうすればよいですか? 私は数多くのグーグル検索と同様に見てきましたがboost
、icu
うまくいくものは見つかりませんでした。ここで何が欠けていますか?助けてください!
私のコード例は次のようになります。
したがって、たとえば" "srcBuf
が含まれている場合、上記は " " の代わりに " " を返します。 W.e. t.h.i.n.k. i.n. g.e.n.e.r.a.l.i.t.i.e.s.
substr()
.k. i.n. g.e
g.e.n.e.r.a.l.i.t.i.e.s.
私が望むのは、マルチバイト表現を気にせずに文字列を読み込んで処理することです。boost
これらの文字列をファイルから読み取り、内部使用のために固定幅表現に変換するために (または他の何かを) 使用する例はありますか?
ところで、私は Eclipse と gcc を使用して Mac を使用してSTL
います。ワイド文字列を理解できない可能性はありますか?
ありがとう!
python - Python が UCS-2 または UCS-4 でコンパイルされているかどうかを調べる方法は?
まさにタイトル通り。
公式ドキュメントを検索すると、次のことがわかりました。
sys.maxunicode : Unicode 文字でサポートされている最大のコード ポイントを示す整数。この値は、Unicode 文字を UCS-2 または UCS-4 として保存するかどうかを指定する構成オプションによって異なります。
ここで明確でないのは、UCS-2 と UCS-4 に対応する値です。
このコードは、Python 2.6 以降で動作することが期待されています。
php - UCS2/HexEncoded 文字
誰でも私を助けることができますか?UCS2/HexEncoded 文字を取得するにはどうすればよいですか
「こんにちは」のように「00480065006C006C006F」を返します
HexEncoded 値は次のとおりです。
0048 = H 0065 = e 006C = l 006C = l 006F = o*
また、アラビア語 (!مرحبا عالم) は、06450631062d0628064b06270020063906270644064500200021 を返します。
PHPでエンコードされたUCS2を取得するにはどうすればよいですか?
php - phpのUTF8へのUCS2/HexEncoded文字
以前、UTF-8からUCS-2 / HexEncoded文字列を取得するように質問しましたが、次のリンクで何人かの人から助けを得ました。
しかし、ここで、PHPのUCS-2/HexEncoded文字列から正しいUTF-8を取得する必要があります。
次の文字列の場合:
00480065006C006C006Fは「こんにちは」を返します
06450631062d0628064b06270020063906270644064500200021はアラビア語で(!مرحباعالم)を返します
c++ - UCS-2文字列の長さとC++でのサイズを計算する方法は?
UCS-2エンコーディングの文字列があります。この文字列を別のUCS-2文字列にコピーする必要があります。コピーする前に、メモリ割り当て用のUCS-2文字列の長さを計算する必要があります。
UCS-2ストリングの長さを計算する方法は?
c++ - GCC での 2 バイト (UCS-2) 幅の文字列
Visual C++ プロジェクトを GCC に移植するときに、wchar_t データ型がデフォルトで 4 バイトの UTF-32 であることがわかりました。コンパイラ オプションでこれをオーバーライドできますが、4 バイト幅の文字列を想定しているため、RTL の wcs* (wcslen、wcscmp など) の部分全体が使用できなくなります。
今のところ、これらの関数の 5 ~ 6 個をゼロから再実装し、実装を #define しました。しかし、より洗練されたオプションがありますか?たとえば、2 バイトの wchar-t を使用して GCC RTL をビルドし、リンクされる?
私が求めている GCC の特定のフレーバーは、Mac OS X 上の Xcode、Cygwin、および Debian Linux Etch に付属するものです。
sql-server - SQL Server 2008 r2に挿入するために、UTF-8データをClassic asp Form postからUCS-2に変換するにはどうすればよいですか?
私は、Access2000データベースを使用する従来のaspアプリケーションを「最新化」する過程にあります。
SQL Server 2008r2でデータベースを書き直し、すべてのフィールドを変更して、新しいUnicode対応のnchar、nvarchar、ntextを使用し、古いデータをインポートしました。また、IIS6からIIS7に切り替えました
従来のaspは、UTF-8を使用してデータを収集および書き込みます。
これで、アプリケーションは古いデータをWebページに正しく表示しますが、私がそれに触れると、データのUPDATEまたはINSERTが破損します。SQLサーバーにデータを書き込む前に、UTF-8データをクラシックaspからUCS-2に変換する必要があると思います。
しかし、どのように?
注:SQL Serverは、アクセスからデータをインポートしたときに、utf-8データを使用可能な形式に自動変換したようです。