問題タブ [non-ascii-characters]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
character-encoding - 0xDBはどのエンコーディングで通貨記号ですか?
残念ながら、ファイルがどのように生成されたかについての情報を取得できないファイルを受け取りました。これらのファイルを解析する必要があります。
ファイルは、1文字を除いて完全にASCIIです:0xDB(10進数で219になります)。
明らかに(ファイルを見ると)この文字は通貨記号です。私はそれを知っています:
- これらのファイルには、金額が表示される場所に通貨記号を含める必要があります
- ファイルのどこにも他の通貨記号($でもユーロでも何もない)もありません
- その0xDBが表示されるたびに、金額の横になります
これらのファイルでは、0xDBがユーロ記号を表すことになっていると思います(実際には、この0xDBがユーロ記号が表示されるはずのすべての場所に表示される可能性が非常に高くなります)。
fileコマンドは、ファイルについて次のように記述します。
hexdumpはこれを与えます:
それ以外の場合、ファイルはすべて通常どおりフォーマット/解析可能です。実際、私はその奇妙な0xDB文字以外のすべての情報をうまく取得しています。
誰かが何が起こっているのか知っていますか?通貨記号(おそらくユーロ記号)はどのようにして0xDBになりましたか?
ISO-8859-1(別名ISO Latin 1)でもISO-8859-15でもありません。どちらの場合も、コードポイント219は「Û」に対応するためです(Unicodeコードポイント219が「LATINCAPITAL LETTER U WITH CIRCUMFLEX」であるのと同じです)。
拡張ASCIIではありません。
java - US-ASCII エンコードが非 US-ASCII 文字を受け入れるのはなぜですか?
次のコードを検討してください。
観測された出力:
readAndPrint()
(US-ASCII を使用する)の 2 番目の呼び出しが成功するのはなぜですか? このエンコーディングでは入力が適切な文字ではないため、エラーがスローされると予想されます。この動作を義務付ける Java API または JLS の場所はどこですか?
c# - クエリ文字列に余分な外国の文字が含まれています..エンコーディングの問題でしょうか? それで?
ややハックですが、JSON APIを通常のasp.net(C#)ページに向けており、その呼び出しはクエリ文字列を送信しています。
C# コードのクエリ文字列を見ると問題ないように見えますが、その文字列を使用して Web ページを開こうとすると、壊れてしまいます。文字数を数えてみると 6~7文字多いとのこと。
次のように非ASCII文字を削除しようとしましたが、うまくいきませんでした。
文字列を見ると、空白のように見える余分な文字が 1 つだけ表示されます。
internet-explorer - Drupal6/Filedepot を使用した IE ダウンロード ダイアログの非 ASCII 文字
Drupal6 と Filedepot モジュールを使用してファイルを Drupal に保存しています。ファイルのダウンロードは Firefox と Chrome で完全に機能しますが、Internet Explorer には厄介な問題がいくつかあります。
多くのフィンランド語がそうであるように、ファイル名に非 ASCII 文字が含まれていると、ファイル名全体が台無しになります。たとえば、「Alykkäät teknologiat.doc」をダウンロードする場合、IE は「=_UTF-8_B_bHlra8Okw6R0IHRla25vbG9naWF0LmRvYw==_=」という名前でファイルを保存しようとします。
その文字列を簡単に「通常の」文字列に変換する方法はありますか?
助けてくれてありがとう!
python - Python正規表現で一致するUnicode文字
Stackoverflowで他の質問を読みましたが、まだ詳しくはありません。申し訳ありませんが、これはすでに回答済みですが、そこで提案されたものは何も機能しませんでした。
すべてが順調です。次に、ノルウェー語の文字を含むもの(またはよりユニコードのようなもの)を試してみます。
øæåのような典型的なUnicode文字をどのように一致させることができますか?上記のタググループとファイル名のタググループの両方で、これらの文字も一致させることができるようにしたいと思います。
android - Android アプリで非 ASCII 文字を使用しても安全ですか?
最近、ASCII 以外の文字をファイルに保存し、それらの文字をファイルから読み取ることに気付きました。これにより、一部の電話でクラッシュが発生する可能性がありますか?
python - Python matplotlib リポジトリ ubuntu 10.10
親愛なるmatplotlib-userおよび開発者、私は取得したsubversion-repositoryの最新バージョンを使用したかっただけです
svn co https://matplotlib.svn.sourceforge.net/svnroot/matplotlib/trunk/matplotlib/lib/matplotlib/
次に、pythonからロードしようとしましたが、エラーが発生しました:
私のサブバージョンのインストールは、ロシア語をデフォルト言語としているマシンで実行されるため、理由は明らかです。subversion コマンドは、次の置換を行います。
(i)python をすぐに使えるように構成する方法を知っている人はいますか? よろしくお願いします。
non-ascii-characters - 非ASCII文字の検索
重複の可能性:
UNIX で非 ASCII 文字を grep する方法
xml データの非常に大きなファイルで非 ASCII 文字を見つける方法の答えを見つけようとして苦労しています。非ASCII文字を変換したくありません。データファイル内のどこに文字が配置されているかを特定して、ソースに値を削除するように通知できるようにしたいだけです。ASCII 以外のデータ (1 文字のように見える) が原因で、処理プログラムが失敗します。残念ながら、エラー データは、問題のある文字がファイル内のどこにあるかを判断するのに役立ちません。この XML データ ファイルにはデータ レコードが含まれており、ほとんどの場合、説明フィールドまたは名前フィールドにあります。
テキスト ツールを使用してみましたが、テキストのファイルが大きすぎて (>32MB)、圧倒されます。PSPad や TextPad などのツールで 7 ビット ASCII 文字セット以外の文字を見つけるために REGEX を実行する方法はありますか?
javascript - \bおよび国際文字を使用したJavascript正規表現の問題
単純な正規表現の一致で多くの問題が発生しています。
この文字列にアクセント付きの文字があり(これは単なる例です)"Botó Entrepà Nadó Facebook! "
、別のリストの単語を使用して単語を照合したいと思います。
これは私のコードの簡略版です。たとえば、「Botó
」と一致させる
実行すると、期待どおりに「」と一致しませんBotó
(Firefox、IE、Chrome)。
私はそれが私の側のエラーだと思った。しかし、ここに楽しみがあります...
このように文字列を変更し(「」の後"Botón Entrepà Nadó Facebook! "
の「」に注意してください)、同じコードを実行すると、次のようになります。n
Botó
「」に一致しますBotó
!!!!????? (少なくともFirefoxでは)。「」は単語の境界ではないため、これは私には意味n
がありません(これはによって一致し\b
ます)。
単語全体を一致させようとすると:
できます。
もう少し奇妙にするために、最後に別のアクセント付き文字を追加します。
これを一致させようとすると、何も一致しません。しかし、これを試してみると
「」と一致しBotóñ
ます。どちらが間違っています。
「Facebook」と一致させようとすると、期待どおりに機能します。中央にアクセントのある単語を一致させようとすると、期待どおりに機能します。しかし、最後にアクセントのある単語を一致させようとすると失敗します。
私は何が間違っているのですか?これは予想される動作ですか?
python - 最初の文字が ñ であることを確認する方法 - Django
フォームから単語を取得し、それをスラッグ化して区別したい。
django の slugify を使用すると、'Ñandu' という単語を取得すると、slug は 'nandu' になります。そして、「Nandu」という単語を取得すると、ナメクジも「nandu」になります。
そこで、単語が「Ñ」で始まる場合、スラッグは「word_ene」になると決めました。
問題は、入力の最初の文字が本当に 'ñ' (または 'ñ') であるかどうかを確認する方法が見つからないことです。
以前にパラブラをエンコードして、またはエンコードせずに、 self.palabra[0]==u"ñ" と self.palabra[0]=="ñ" の両方を試しました。しかし、私は仕事に行くことができません。
前もって感謝します。