問題タブ [utf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
file - <0xEF,0xBB,0xBF> 文字がファイルに表示されます。それらを削除するには?
JavaScript ファイルの圧縮を行っていますが、ファイルに
文字が含まれているとコンプレッサーが不平を言っています。
これらの文字を検索して削除するにはどうすればよいですか?
java - HTML ASCII コードを対応する文字に変換する
HTML ASCII コードを判読可能な文字に変換しようとしています。たとえば、次のような HTML コードがあります。
そして、私はそれを次のように出力したいと思います:
しかし、Java / Android はこれを行う簡単な方法をサポートしていないようです。それとも何か足りないのでしょうか? どんな助けでも大歓迎です。
android - Android Ndk プログラミングで UTF 文字列を取得する
ご覧のとおり、utf 文字列から jbyte *str を取得します。次に、文字列の各文字には 2 つの jbyte があり、それ以外の場合は 1 バイトですか?
gwt - éàçè... を同等の「eace」に置き換えます GWT では
試し
s=Normalizer.normalize(s, Normalizer.Form.NFD).replaceAll("[^\\p{ASCII}]", "");
てみましたが、GWT API はそのような機能を提供していないようです。
私も試しました:
しかし、それも機能しません
シナリオは、履歴管理のために、クリックされたウィジェットのテキストからトークンを生成しようとしています
php - 文字列の文字化けを置き換えるには?
私はこのテキストを持っています...
「私は信頼できるようにしようとしているわけではありません」とデビッドは笑顔を広げて認めます.
...そして、それらの変な文字を削除したいのですが、試してみましstr_replace()
たが、うまくいきません。
何か案は?
python - バイナリ データを Web セーフ テキストに変換して戻す - Python
バイナリ ファイル (jpg、mp3 など) を Web セーフ テキストに変換してから、バイナリ データに戻したいと考えています。いくつかのモジュールを調査しましたが、非常に近いと思いますが、データが破損し続けています。
binasciiのドキュメントを見た後、私はこれを思いつきました:
を開こうとするとconverted.jpg
、データが破損します:-/
b2a_base64
また、バイナリ データの 57 ブロックの長さで使用してみました。各ブロックを取得して文字列に変換し、それらをすべて連結してから、元に戻すa2b_base64
と再び破損しました。
誰でも助けることができますか?私は、バイトとファイル形式のすべての複雑さに精通しているわけではありません。\r\n
それが違いを生む場合、私はWindowsでPythonを使用しています
php - PHPでutfシーケンスを検証するには?
自分のサイトを utf-8 を使用するように変換した後、すべての受信 utf データを検証して、その有効性と一貫性を確保するという見通しに直面しています。
文字列が utf かどうかを検出するためのさまざまな正規表現と PHP API があるようですが、私が見たものは不完全なようです (utf を検証するが、無効な 3 番目のバイトを許可する正規表現など)。
また、長すぎるエンコード、つまりマルチバイトの utf シーケンスとしてエンコードできる ASCII 文字の検出 (および防止) についても懸念しています。
提案やリンクは大歓迎です!
php - PHP Web サイトから無効な utf8 をフィルタリングしているのは何ですか?
私のウェブサイトは完全に utf-8 (mysql、http ヘッダー、PHP mb_string など) を使用するように変換されています。
いくつかの侵入テストを行っており、無効な utf をスクリプトの 1 つに (BurpSuite を使用して) POST しようとしています。
しかし、無効な utf を投稿すると、$_POST 変数を 16 進ダンプするだけで、mb_detect_encoding を使用して検証する前に、無効な utf シーケンスが既にサニタイズされていることがわかります。
これは私にとって朗報のように思えますが、どのレイヤーが POST データを変換しているかを知りたいですか?
これは Content-Type HTTP ヘッダーの副作用ですか、おそらく私の Web サーバー (lighttpd) が実行しています。それとも、$_POST を入力するときに PHP 自体がそれを行っているのでしょうか?
無効な utf が 16 進ダンプされることを期待していたので、自分でサニタイズする必要がありました。
c++ - Exiv2:UTF8ファイルパスで写真を読み取る方法は?
GTKmmとexiv2を使用してEXIFメタデータフォームの写真を読み取っています。ただし、Exiv2関数はstd :: stringファイルパスのみを受け入れます...ASCIIファイルパスではなく試してみると、プログラムがクラッシュします。
そのデータを読み取る方法はありますか?Exiv2がGlib::ustrings..を受け入れたら素晴らしいと思います。
WindowsとLinuxのソリューションに興味があります。
python - ASCII 以外の文字を使用する場合の SQL Server (SQLCMD)、Python、およびエンコードの問題
SQL Server 2005 にあるデータを要求するときに、Python コードでエンコードの問題に直面しています。
(PyMSSQL-2.0.0b1 をコンパイルできなかったため)私はこのコードを使用しており、いくつかの選択を行うことができますが、SQLCMDが私に出力しているものがわからないという問題に固執しています: (
(テーブルに含まれるヨーロッパ言語を使用する必要があったため、アクセントなどを含む他のエンコーディングに直面する必要がありました)
例えば :
- Ms SQLServer Management Studio からそれを読んだ (選択した) とき、国名は「Ceská republika」です (最初の a は鋭角であることに注意してください)
- コマンド ライン (Windows 7 の Powershell) から SQLCMD を使用する場合、それでも問題ありません。"Cesk'a with acute'" が表示されます。
Python をレシピの os.popen トリックで使用する場合、つまり、この接続文字列を使用します。
sqlcmd -U 管理者名 -P パスワード -S サーバー名 -d データベース名 /w 8192 -u
私はこの文字列を取得します: 'Cesk\xa0 republika'
\xa0 に注意してください。私はそれがどのエンコーディングであるかを知っており、この \xa0 から {a with acute} に渡す方法を知っています...
Python と Unicode からテストする場合、この '\xe1' が必要です
それで、SQLCMDが私に何を与えているのですか?Python 用の理解可能な utf8 があることを確認するために、それおよび/または os.popen などを強制するにはどうすればよいですか?
(注意してください、私は SQLCMD の os.popen cmd で終了する -u の有無の両方を試しましたが、これは SQLCMD にユニコードで応答するように要求することを表しますが、効果はありません。また、「選択」でフィードしようとしました" utf8 でエンコードされた python 文字列はこれ以上成功しません:
)
別のポイント:「sqlcmd.exe」について、私がグーグルで調べたものから、役立つ可能性のあるこれらのパラメーターもあります:
しかし、私は正しいものを指定できませんでした。可能な値が何であるかわかりません.BTWを使用する(または使用しない):
私も助けてくれません...