5

URIでUnicode文字を参照する必要があります。以下のIANAリファレンスには、複数のスキームと名前空間がリストされていますが、Unicode文字の識別子については何も言及されていません。このようなものがすでに存在するかどうか誰かが知っていますか?

私は次のようなものを見つけたいと思っていました

  • unicode://U+0394
  • urn:unicode://0394
  • http://unicode.org/unicode/0394

ギリシャ語の大文字のデルタΔ。

誰かが不思議に思うなら、これは、Unicode文字の概念を含む概念の識別子としてURIを使用するアプリケーションのようなセマンティックWeb用です。

4

3 に答える 3

3

一般に、Unicode文字に関する信頼できる情報を参照するためのURLまたはURNはありません。Unicode標準では、個々の文字に関する情報の一部は、いわゆる文字データベース(ほとんどの場合、特定の形式のプレーンテキストファイル)にあり、一部はコードチャート(PDFファイル)にあります。どちらも、個々のキャラクターを指す方法を提供していません。さらに、そこにある情報は網羅的ではありません。標準の周りに散らばっている個々のキャラクターの情報に関する重要な注意があります。

Decodeunicodeサイトには、次のような個別にアドレス指定可能なアイテムがあります。

http://www.decodeunicode.org/en/u+0394

しかし、その情報内容は大きく異なり、一般的に非常に限られています。これは公式ではなく、現在Unicode5.0のみが含まれています。

Fileformat.infoサイトははるかに体系的ですが、それも非公式です基本的には、正式なプロパティとそれらから派生するデータ、コードチャートから抽出されたコメント、Windowsでの文字の入力手順、フォントでのサポートに関する情報に限定されますが、それは非常に多くのことです。例:

http://www.fileformat.info/info/unicode/char/0394/

于 2012-07-28T10:49:56.057 に答える
1

[編集]:ニーズに一致するこのURLを見つけました:http://unicode.org/cldr/utility/character.jsp?a = 1F40F

ええと、Unicodeデータベースの信頼できる情報を参照するURLがありますが、それは(他の回答で述べられているように)1つの特定の文字に関するすべての情報を記述していません。

最新のUnicodeデータベースを指す次のURLがあります。これは、既存の有効なUnicode文字の簡単なリストです。今後登場するキャラクターの一部が欠落しており(㋿)、変更可能であると期待する必要があります。

内容は以下のようになりますが、そのままではあまり実用的ではありません。

$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;

このような接尾辞を付けて、ハッキーな«ハッシュベース»名前空間を構築することもできますが、それは間違いなく非標準です。

于 2018-12-09T07:41:15.917 に答える
1

これものタグが付けられているので、簡単に(そして永続的に)参照解除でき、その文字を説明するドキュメント(data:スキーム)と間違えられないURIを選択しようとします。これは、Unicodeの文字だけでなく、任意のエンコーディング、およびその任意の文字列を参照できます。

data:;charset=utf-8,%CE%94

このURIを開こうとするとtext/plain、コンテンツとして1文字のファイルが作成されます。

システムがIRIを受け入れる場合(多くのセマンティックWebアプリケーションが受け入れるように)、文字を直接含めることができます。

data:;charset=utf-8,Δ

これは上記と同じURIにマッピングされており、ブラウザが直接変換する場合があります。この場合、マッピングが他のエンコーディングに対して定義されていないため、UTF-8を指定する必要があります。

于 2021-01-26T15:52:28.953 に答える