87

レイアウトについては、有名な「Lorem ipsum」テキストを使用して、どのように見えるかをテストします。

私が探しているのは、テキスト ファイルを読み取るときに文字エンコーディングを処理するいくつかのメソッドをテストするために JUnit テストで使用できる、いくつかの異なるエンコーディングでエンコードされたテキストを含む一連のファイルです。

例:

ISO 8859-1エンコードされたテスト ファイルとエンコードされたテスト ファイルを持つWindows-1252。Windows-1252 は、領域 80 16 – 9F 16の違いをトリガーする必要があります。つまり、ISO 8859-1 と区別するために、この地域の文字を少なくとも 1 文字含める必要があります。

テスト ファイルの最適なセットは、各エンコーディングのテスト ファイルにすべての文字が 1 回含まれている場合です。しかし、おそらく私は sth を認識していません - 私たちは皆、このエンコーディングが好きですよね? :-)

文字エンコーディングの問題に対するそのようなテストファイルのセットはありますか?

4

5 に答える 5

42

分音記号に関するウィキペディアの記事はかなり包括的ですが、残念ながらこれらの文字を手動で抽出する必要があります。また、言語ごとにいくつかのニーモニックが存在する場合があります。たとえば、ポーランド語では次のように使用します。

Zażółć gęślą jaźń

1 つの正しい文に 9 つのポーランド語の分音符号がすべて含まれています。もう 1 つの便利な検索ヒントはパングラムです。アルファベットのすべての文字を少なくとも 1 回使用する文です

  • スペイン語では、" El veloz murciélago Hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palmenque de paja. " (すべて 27 文字と分音符号)。

  • ロシア語では、「Съешь же ещё этих мягких французских булок, да выпей чаю」 (ロシア語のキリル文字 33 文字すべて)。

パングラムのリストには、網羅的な要約が含まれています。誰もがこれを簡単にラップしたいと思っています:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

図書館?

于 2012-02-08T09:23:54.923 に答える
28

ICUテスト スイート ファイルを使用してみてはどうでしょうか。それらがテストに必要なものであるかどうかはわかりませんが、少なくともUTFマッピングファイルから/へのかなり完全なものがあるようです: ICUテストファイルのリポジトリへのリンク

于 2012-02-16T12:41:56.730 に答える
8

完全なテキスト文書については知りませんが、すべての文字セットの簡単な概要から始めることができれば、ftp.unicode.org サーバーでいくつかのファイルを入手できます。

たとえば、WINDOWS-1252 です。最初の列は 16 進文字の値で、2 番目の列は Unicode 値です。

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

于 2012-02-10T22:40:03.567 に答える
1

さて、私はオンライン ツールを使用して Lorem Ipsum からテキスト文字セットを作成しました。私はそれがあなたを助けることができると信じています. 1 つのページにさまざまな文字セットがすべて含まれているものはありません。

http://generator.lorem-ipsum.info /

于 2012-02-08T11:21:45.303 に答える