13

ファイル、ファイル エンコーディング、およびファイル形式の概念を明確に理解していません。グーグルはある程度まで助けてくれました。 私がこれまでに理解していることから、すべてのファイルはバイナリです。つまり、そのようなファイルの各バイトには、256 の可能なビット列のいずれかを含めることができます。ASCII ファイル (ここからエンコーディング部分に進みます) はバイナリ ファイルのサブセットであり、各バイトは 7 ビットしか使用しません。

そして、ここで物事が混乱します。ファイル形式は、ファイル内のバイトを解釈する方法のようであり、ファイル拡張子は、ファイル形式を識別する最もよく使用される方法の 1 つと思われます。

これは、バイナリ ファイル用に定義されたフォーマットと ASCII ファイル用に定義されたフォーマットがあるということですか? xml、pdf、doc、rtf、html、xls、sql、tex、java、cs などの形式は、ASCII ファイルを「参照」していますか? jpg、mp3、avi、eps、obj、out、dll などの形式は、バイナリ ファイルについて話している手がかりになるのでしょうか?

4

4 に答える 4

12

ASCIIファイルとBINARYファイルについては話せないと思いますが、 TEXTファイルとBINARYファイルについて話してください。

その意味で、これらはテキスト ファイルです: XML、HTML、RTF、SQL、TEXT、JAVA、CSS、EPS。

これらはバイナリ ファイルです: PDF、DOC、XLS、JPG、MP3、AVI、OBJ、DLL。

ASCII は、コンピューティングの初期にテキストを表すために使用された単なる文字の表ですが、中国語、アラビア語、スペイン語 (ñ、Ñ、チルダを含む単語)、フランス語などの言語ではテキストを表すことができないため、最近ではあまり推奨されていません。その他。最近では、ASCII の代わりに他の文字表現が推奨されています。最もよく知られているのはおそらくUTF-8です。しかし、 ISO-8859-1ISO-8859-3などのようなものもあります。UNICODE について話している Joel Spolsky によるこの記事を見てください。とても啓発的です。

ファイル形式は、別の非常に異なる問題です。ファイル形式は、情報を表すためにプログラムが同意するプロトコルです。その意味で、JPGファイルは、プログラム (ブラウザー、スプレッドシート、ワープロ) が画像として使用できる特定の (よく知られている) 内部形式を持つ画像です。

テキスト ファイルにも形式があります (IE、XML や HTML などのテキスト ファイルの仕様があります)。その形式は、JPGやその他のバイナリ ファイルと同様に、アプリケーションが何かを達成するために一貫した特定の方法でそれらを使用することを可能にします: IE、WEB PAGE (HTML および XHTML ファイル形式) をレンダリングします。

于 2012-12-14T11:51:29.903 に答える
2

ファイルがハードドライブに保存される実際の方法は、OS によって定義されます。ファイルの実際のコンテンツは、バイト配列として記述できます。それぞれに最大バイト サイズの可能な値があります。

テキスト ファイル - 256 文字 (ASCII) セットを使用して簡単に読み取るか、より広い文字セットを使用します (その場合、適切なアプリのみが読み取ることができます)。

残りのバイナリ (および「テキスト」ビューアでは「読み取れない」その他の形式) と呼ばれるものは、特定の他のアプリまたは OS によって読み取られるように設計された形式です。実行可能な場合 - OS はそれらを読み取って実行できます。他のもの - jpg など - フォト ビューアーなどによって「理解」されるように設計されています。

于 2012-12-14T11:57:12.223 に答える