問題タブ [file-encodings]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - C#:Lating1Encodedドキュメントを解析するときのXpathの「スウェーデン語」文字
解析する必要のある一連のhtmlドキュメントがあります。それらはLatin1Encodedでエンコードされています。「解析」にHtmlAgiliyパックを使用しています。
ドキュメント間でエンコーディングが異なるために動作できないXpathクエリ(スウェーデン語の文字を使用)があり、VSはXPathクエリを格納しますか?
Xpathクエリ:
xpathクエリは、Firefox拡張機能のxpathチェッカーで正常に機能します。
java - antでjunitテストのfile.encodingを設定するにはどうすればよいですか?
私はfile.encoding と antを完全に使い果たしたわけではありません。antでjunitテストのfile.encodingを設定するにはどうすればよいですか? junit ant タスクは、javac タスクのようなエンコーディング属性をサポートしていません。
«ant -Dfile.encoding=UTF-8» と «ANT_OPTS="-Dfile.encoding=UTF-8" ant» を実行してみましたが、成功しませんでした。テスト内の System.getProperty("file.encoding") は依然としてMacRomanを返します。
delphi - Delphi IDEのデフォルトのファイル形式をUTF8に設定するにはどうすればよいですか?
Delphi 2009は、新しいソースコードファイルのデフォルトのファイル形式をANSIに設定します。これにより、ソースコードはプラットフォームに依存します。
IDEで作成された新しいXSDファイルの場合でも、デフォルトではこの行で始まります
Delphiはファイル形式をANSIに設定します(これはバグのように見えます。新しいXMLおよびXSLTドキュメントの場合、デフォルトでUTF8が選択されています)。
ソースコードファイルのデフォルトのファイル形式を設定するための隠しオプションはありますか?
java - Linux での Java Charset の問題
問題: バイトに変換する特殊文字を含む文字列があり、その逆も同様です。変換は Windows では正しく機能しますが、Linux では特殊文字が正しく変換されません。Linux のデフォルトの文字セットは、Charset で見られるように UTF-8 です。 defaultCharset.getdisplayName()
ただし、オプション -Dfile.encoding=ISO-8859-1 を使用して Linux で実行すると、正しく動作します。
UNIX 環境で -D オプションを設定せずに UTF-8 デフォルトの文字セットを使用して動作させる方法。
編集: jdk1.6.13 を使用します
編集: コード スニペットは cs = "ISO-8859-1"; で動作します。または cs="UTF-8"; winではあるがlinuxではそうではない
よろしくお願いします
perl - Perlと異なるエンコーディングのファイルの読み取り
perlスクリプトを使用してファイルを読み込みますが、ファイルのエンコードがわかりません。基本的に、私のファイルは本のタイトルのリストですが、各本には他の情報(著者、発行日)が関連付けられています。 、など)。したがって、各本のタイトルは、その本の個別のデータチャンク内にあります。そのため、正規表現が見つかるまでファイルを1行ずつ繰り返し'/Book Title: (.*)/'
、パレンにあるものを取得します。次に、自分の本であるテキストファイルの名前を使用して別の.txtファイルを作成します。しかし、私のUNIXサーバーでは、ファイルの名前を見ると、たとえば、実際にはそうでは'LordOfTheFlies.txt'
なく、むしろ'LordOfTheFlies^M.txt'
この「^M」とは何ですか?それは私が考慮していない奇妙な行末エンコーディングですか?chompを試しましたが、機能していないようです。Perlを操作するのに最適なファイルエンコーディングは何ですか?
ruby - rubyを使用したファイルエンコーディング
ファイルのエンコーディングに少し問題があります。
「sometext%C3%B3 + more +%26 + andmore」のようなURLエンコードされた文字列を受け取り、エスケープを解除してデータを処理し、windows-1252エンコードで保存します。
変換は次のとおりです。
そして結果はsometextó more & andmore
java - File.listFiles() は JDK 6 で Unicode 名をマングルします (Unicode 正規化の問題)
OS X と Linux の両方で Java 6 のディレクトリ コンテンツを一覧表示するときに、奇妙なファイル名エンコーディングの問題に苦しんでいます。File.listFiles()
および 関連するメソッドは、システムの残りの部分とは異なるエンコーディングでファイル名を返すようです。
問題を引き起こしているのは、これらのファイル名の表示だけではないことに注意してください。私は主にファイル名をリモート ファイル ストレージ システムと比較することに関心があるので、出力に使用される文字エンコーディングよりも名前文字列の内容に関心があります。
ここにデモンストレーションするプログラムがあります。Unicode 名でファイルを作成し、直接作成されたファイルから取得したファイル名のURL エンコードバージョンを出力し、親ディレクトリの下にリストされている場合は同じファイルを出力します (このコードは空のディレクトリで実行する必要があります)。結果は、File.listFiles()
メソッドによって返されたさまざまなエンコーディングを示しています。
システムでこのテスト コードを実行すると、次のようになります。%CC
対%C3
文字表現に注意してください。
OS X Snow Leopard:
KUbuntu Linux (同じ OS X システム上の VM で実行):
file.encoding
システムプロパティやさまざまなLC_CTYPE
環境LANG
変数の設定など、文字列を一致させるためにさまざまなハックを試しました。何も役に立ちませんし、そのようなハックに頼りたくもありません。
この(やや関連する)質問とは異なり、奇妙な名前にもかかわらず、リストされたファイルからデータを読み取ることができます
ruby - Rubyで空白文字を生成するファイルエンコーディング - なぜですか?
私はこの小さなルビーを使用しています:
そして、ファイルにフィードしているサンプルファイルがあり、3 つのピリオドと改行だけが含まれています。
このファイルを utf-8 のファイル エンコーディング (vim: でset fileencoding=utf-8
) で保存し、このスクリプトを実行すると、次の出力が得られます。
そして、fileencoding を latin1 (vim: 内set fileencoding=latin1
) に変更してスクリプトを実行すると、最初の空白文字が取得されません。
何が起きてる?utf8エンコーディングは、ファイルをutf8エンコードとしてマークするためにファイルの先頭にいくつかのバイトを配置することを理解していますが、テキストを処理するときにそれらは見えないはずだと思っていました(つまり、rubyランタイムがそれらを処理するはずでした)。私は何が欠けていますか?
ところで:
ありがとう!
アップデート:
余分な文字 (BOM) を含むファイルの 16 進ダンプ:
c# - StreamWriter と UTF-8 バイト オーダー マーク
StreamWriter とバイト オーダー マークに問題があります。ドキュメントには、Encoding.UTF8 エンコーディングではバイト オーダー マークが有効になっていると記載されているようですが、ファイルが書き込まれているときにマークがあるものとないものがあります。
次の方法でストリーム ライターを作成しています。
何が起こっているのかについてのアイデアをいただければ幸いです。
powershell - Powershell: デフォルトのシステム エンコーディングを取得する
powershell コマンドレットには、に設定できるout-file
スイッチウィッチがあります。このデフォルト値は、システムの現在の ANSI コード ページのエンコーディングを使用します。私の質問は次のとおりです: powershell で使用される
この既定のエンコーディングの名前を取得するにはどうすればよいですか?-encoding
default
out-file