問題タブ [file-encodings]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
796 参照

c# - C#:Lating1Encodedドキュメントを解析するときのXpathの「スウェーデン語」文字

解析する必要のある一連のhtmlドキュメントがあります。それらはLatin1Encodedでエンコードされています。「解析」にHtmlAgiliyパックを使用しています。

ドキュメント間でエンコーディングが異なるために動作できないXpathクエリ(スウェーデン語の文字を使用)があり、VSはXPathクエリを格納しますか?

Xpathクエリ:

xpathクエリは、Firefox拡張機能のxpathチェッカーで正常に機能します。

0 投票する
1 に答える
6076 参照

java - antでjunitテストのfile.encodingを設定するにはどうすればよいですか?

私はfile.encoding と antを完全に使い果たしたわけではありません。antでjunitテストのfile.encodingを設定するにはどうすればよいですか? junit ant タスクは、javac タスクのようなエンコーディング属性をサポートしてません。

«ant -Dfile.encoding=UTF-8» と «ANT_OPTS="-Dfile.encoding=UTF-8" ant» を実行してみましたが、成功しませんでした。テスト内の System.getProperty("file.encoding") は依然としてMacRomanを返します。

0 投票する
5 に答える
9556 参照

delphi - Delphi IDEのデフォルトのファイル形式をUTF8に設定するにはどうすればよいですか?

Delphi 2009は、新しいソースコードファイルのデフォルトのファイル形式をANSIに設定します。これにより、ソースコードはプラットフォームに依存します。

IDEで作成された新しいXSDファイルの場合でも、デフォルトではこの行で始まります

Delphiはファイル形式をANSIに設定します(これはバグのように見えます。新しいXMLおよびXSLTドキュメントの場合、デフォルトでUTF8が選択されています)。

ソースコードファイルのデフォルトのファイル形式を設定するための隠しオプションはありますか?

0 投票する
3 に答える
30813 参照

java - Linux での Java Charset の問題

問題: バイトに変換する特殊文字を含む文字列があり、その逆も同様です。変換は Windows では正しく機能しますが、Linux では特殊文字が正しく変換されません。Linux のデフォルトの文字セットは、Charset で見られるように UTF-8 です。 defaultCharset.getdisplayName()

ただし、オプション -Dfile.encoding=ISO-8859-1 を使用して Linux で実行すると、正しく動作します。

UNIX 環境で -D オプションを設定せずに UTF-8 デフォルトの文字セットを使用して動作させる方法。

編集: jdk1.6.13 を使用します

編集: コード スニペットは cs = "ISO-8859-1"; で動作します。または cs="UTF-8"; winではあるがlinuxではそうではない

よろしくお願いします

0 投票する
3 に答える
232 参照

perl - Perlと異なるエンコーディングのファイルの読み取り

perlスクリプトを使用してファイルを読み込みますが、ファイルのエンコードがわかりません。基本的に、私のファイルは本のタイトルのリストですが、各本には他の情報(著者、発行日)が関連付けられています。 、など)。したがって、各本のタイトルは、その本の個別のデータチャンク内にあります。そのため、正規表現が見つかるまでファイルを1行ずつ繰り返し'/Book Title: (.*)/'、パレンにあるものを取得します。次に、自分の本であるテキストファイルの名前を使用して別の.txtファイルを作成します。しかし、私のUNIXサーバーでは、ファイルの名前を見ると、たとえば、実際にはそうでは'LordOfTheFlies.txt'なく、むしろ'LordOfTheFlies^M.txt'

この「^M」とは何ですか?それは私が考慮していない奇妙な行末エンコーディングですか?chompを試しましたが、機能していないようです。Perlを操作するのに最適なファイルエンコーディングは何ですか?

0 投票する
1 に答える
823 参照

ruby - rubyを使用したファイルエンコーディング

ファイルのエンコーディングに少し問題があります。

「sometext%C3%B3 + more +%26 + andmore」のようなURLエンコードされた文字列を受け取り、エスケープを解除してデータを処理し、windows-1252エンコードで保存します。

変換は次のとおりです。

そして結果はsometextó more & andmore

0 投票する
6 に答える
10583 参照

java - File.listFiles() は JDK 6 で Unicode 名をマングルします (Unicode 正規化の問題)

OS X と Linux の両方で Java 6 のディレクトリ コンテンツを一覧表示するときに、奇妙なファイル名エンコーディングの問題に苦しんでいます。File.listFiles()および 関連するメソッドは、システムの残りの部分とは異なるエンコーディングでファイル名を返すようです。

問題を引き起こしているのは、これらのファイル名の表示だけではないことに注意してください。私は主にファイル名をリモート ファイル ストレージ システムと比較することに関心があるので、出力に使用される文字エンコーディングよりも名前文字列の内容に関心があります。

ここにデモンストレーションするプログラムがあります。Unicode 名でファイルを作成し、直接作成されたファイルから取得したファイル名のURL エンコードバージョンを出力し、親ディレクトリの下にリストされている場合は同じファイルを出力します (このコードは空のディレクトリで実行する必要があります)。結果は、File.listFiles()メソッドによって返されたさまざまなエンコーディングを示しています。

システムでこのテスト コードを実行すると、次のようになります。%CC%C3文字表現に注意してください。

OS X Snow Leopard:

KUbuntu Linux (同じ OS X システム上の VM で実行):

file.encodingシステムプロパティやさまざまなLC_CTYPE環境LANG変数の設定など、文字列を一致させるためにさまざまなハックを試しました。何も役に立ちませんし、そのようなハックに頼りたくもありません。

この(やや関連する)質問とは異なり、奇妙な名前にもかかわらず、リストされたファイルからデータを読み取ることができます

0 投票する
1 に答える
724 参照

ruby - Rubyで空白文字を生成するファイルエンコーディング - なぜですか?

私はこの小さなルビーを使用しています:

そして、ファイルにフィードしているサンプルファイルがあり、3 つのピリオドと改行だけが含まれています。

このファイルを utf-8 のファイル エンコーディング (vim: でset fileencoding=utf-8) で保存し、このスクリプトを実行すると、次の出力が得られます。

そして、fileencoding を latin1 (vim: 内set fileencoding=latin1) に変更してスクリプトを実行すると、最初の空白文字が取得されません。

何が起きてる?utf8エンコーディングは、ファイルをutf8エンコードとしてマークするためにファイルの先頭にいくつかのバイトを配置することを理解していますが、テキストを処理するときにそれらは見えないはずだと思っていました(つまり、rubyランタイムがそれらを処理するはずでした)。私は何が欠けていますか?

ところで:

ありがとう!

アップデート:

余分な文字 (BOM) を含むファイルの 16 進ダンプ:

0 投票する
10 に答える
68055 参照

c# - StreamWriter と UTF-8 バイト オーダー マーク

StreamWriter とバイト オーダー マークに問題があります。ドキュメントには、Encoding.UTF8 エンコーディングではバイト オーダー マークが有効になっていると記載されているようですが、ファイルが書き込まれているときにマークがあるものとないものがあります。

次の方法でストリーム ライターを作成しています。

何が起こっているのかについてのアイデアをいただければ幸いです。

0 投票する
1 に答える
21101 参照

powershell - Powershell: デフォルトのシステム エンコーディングを取得する

powershell コマンドレットには、に設定できるout-fileスイッチウィッチがあります。このデフォルト値は、システムの現在の ANSI コード ページのエンコーディングを使用します。私の質問は次のとおりです: powershell で使用される この既定のエンコーディングの名前を取得するにはどうすればよいですか?-encodingdefault
out-file