information-theory - 情報はデータのサブセットですか？

Question

これがmathoverflowに属する数学の質問なのか、それともここに属するコンピュータサイエンスの質問なのかわからないので、お詫び申し上げます。

そうは言っても、私はデータ、情報、知識の根本的な違いを理解していると思います。私の理解では、情報にはデータと意味の両方が含まれています。私がはっきりしていないことの1つは、情報がデータであるかどうかです。情報は特別な種類のデータと見なされますか、それともまったく異なるものですか？

score 6 · Accepted Answer

data、informationおよびは、特定の情報セットの一般的な「簡潔さ」と「有用性」を主観的knowlegeに分類するために使用される値ベースの概念です。これらの言葉は、情報処理の根本的な目的と方法論に関連しているため、正確な意味はありません。情報理論の分野では、これらはまったく意味がありません。なぜなら、3つすべてが同じものであるためです。つまり、「情報」のコレクションです（情報理論の意味で）。それでも、以下で大まかに説明するように、情報セットの一般的な性質を要約するのに役立ちます。

情報はデータから取得されます（または誘導されることもあります）が、より豊富で、よりクリーン（一部の値が修正されている）および「より単純」（一部の無関係なデータが削除されている）である可能性があります。したがって、集合論の意味では、 情報はデータのサブセットではなく、別個のセットです[通常、データとある程度交差しますが、独自の要素を持つこともできます]。

知識（洞察と呼ばれることもあります）はさらに別のレベルであり、情報に基づいており、情報の[集合論]サブセットでもありません。実際、知識は通常、情報要素を直接参照することはありませんが、情報/データに関する「メタストーリー」を伝えます。

データ->情報->知識チェーンに沿って、上位レベルが下位レベルのサブセットであるという根拠のない考えは、おそらく[通常] [ITセンス]情報の量が減少しているという事実に起因しています。しかし、定性的にはこの情報は異なるため、実際の[集合論]サブセットの関係はありません。

例：

ウォール街からの生の証券取引所データは...データ
「データの海」です！誰かがこのデータから直接、必要なものを見つけるのに苦労しています。このデータは正規化する必要があるかもしれません。たとえば、価格情報は、1/32ドルの精度のテキスト文字列で表現される場合もあれば、1/8ドルの精度の真の2進整数として表示される場合もあります。また、たとえば、購入者IDまたは販売者IDを示すフィールドにはタイプミスが含まれている可能性があるため、間違った販売者/購入者を指しています。等
上記から作成されたスプレッドシートは...情報
さまざまなプロセスがデータに適用されました
。-さまざまな値のクリーニング/修正
-相互参照（たとえば、個人/会社の実際の名前を表示する列の追加など、関連するコードの検索[購入者ID]列の横）
-同じイベントに関連する（ただし、異なるソースからの）重複レコードが相互に確証するために使用されるが、1つの単一レコードに結合される場合のマージ。
-集計：たとえば、（個々のトランザクションをすべて表示するのではなく、特定の株式のすべてのトランザクション値の合計を作成します。
これらすべて（そして一部）は、データを情報に変換しました。つまり、[ITセンス]情報の本体であり、簡単に使用できます。ここでは、IBM株の始値と終値などの「データ」をすばやく見つけることができます。 2009年6月8日。
使い勝手が良く、部分的にはより正確/正確であり、要約されているものの、比較的単純な方法では元の情報から特定または計算できなかった実際の[ITセンス]情報がないことに注意してください。（骨の折れる場合のみ）プロセス。
金融アナリストのレポートには...知識
が含まれている可能性があります。たとえば、レポートに[偽の例]が示されている場合、石油の価格が特定のしきい値を超えると、金の価値は下がり始めますが、その後すぐに再び急上昇します。コーヒーとお茶の安定します。この特定の洞察は知識を構成します。この知識は、ずっとデータだけに隠されていた可能性がありますが、いくつかの凝った統計分析を適用した場合、および/またはそのようなパターンを見つけたり確認したりするために人間の専門家の助けを必要とした場合にのみ明らかになりました。

ちなみに、情報という言葉の情報理論の意味では、「データ」、「情報」、「知識」にはすべて[ITセンス]の情報が含まれています。
「チェーンを上るにつれてエントロピーが減少する」という滑りやすい坂道に乗る可能性がありますが、それは大まかにしか当てはまりません。

エントロピーの減少は、「人間にとっての有用性」に直接または体系的に結び付けられていません
（典型的な例は、zip形式のテキストファイルのエントロピーは少ないですが、読むのは楽しいことではありません）
（エントロピー損失に加えて）事実上情報の損失があります（
たとえば、データが集約されると、個々のレコードに関する[ITセンス]情報が失われます）
特に情報->知識の場合、アブストラクションのレベルに変化があります

最後のポイント（まだ皆さんを混乱させていない場合...）は、チェーンが[ITセンス]情報の使用目的/目的にdata->info->knowledge効果的に関連しているという考えです。
ewernli以下のコメントでは、スペルチェッカーの例を示しています。つまり、英語の正書法に焦点を当てている場合、ウォールストリートの天才からの最も洞察に満ちた論文は単なる単語の文字列であり、事実上「生データ」であり、その一部は改善が必要です（正書法の目的の連鎖に沿って。
同様に、（一般的な意味で）少なくともある程度の洞察/知識を含む数千の新聞記事を使用する言語学者は、これらの記事を生データと見なすことができ、フランス語を自動的に作成するのに役立ちます-ドイツ語の語彙集（これは情報になります）。プロジェクトに取り組んでいるときに、2つの言語間の一般的な単語の使用に体系的な意味の変化を発見し、異なる文化への洞察を集めることができます。

score 1 · Accepted Answer

まず、情報とデータを慎重に定義します。

情報とは何か、データとは何かは、コンテキストに大きく依存します。極端な例は、あなたが電子メールを送るパーティーでのあなたの写真です。あなたにとっては情報ですが、ISPにとっては、渡されるのは単なるデータです。

適切なコンテキストを追加するだけで、データが情報に変わることがあります。

それで、あなたの質問に答えるために：いいえ、情報はデータのサブセットではありません。少なくとも次のようになります。

コンテキストを追加するときのスーパーセット
サブセット、干し草の山の針の問題
ダイジェストなどのデータの機能

おそらくもっと多くの状況があります。

score 1 · Accepted Answer

これは私がそれを見る方法です...

データが汚れていて生です。あなたはおそらくそれが多すぎるでしょう。

... Jason ... 27 ... Denton ...

情報とは、必要な、整理された意味のあるデータです。

Jason.age=27
Jason.city=Denton

知識がウィキやブログがある理由です。洞察と経験を追跡するためです。これらは人間（およびコミュニティ）の属性であることに注意してください。おそらく奇妙な科学プロジェクトを除いて、Facebookにはそれが何を信じているかを人々に伝えるコンピューターはありません。

score 1 · Accepted Answer

情報はデータの拡張です。

データは不活性です
情報は実用的です

データのない情報は単なる意見であることに注意してください;-)

score 0 · Accepted Answer

情報を構成する追加のコンテンツを表す何らかの方法があれば、情報はデータである可能性があります。書かれたテキストを「理解」しようとするプログラムは、入力テキストを、そのテキストの意味のより複雑な処理を可能にする形式に変換する可能性があります。この変換された形式は、処理システム全体のコンテキストで理解される場合、情報を表す一種のデータです。システムの外部からはデータとして表示されますが、システムの内部からは理解されている情報です。

information-theory - 情報はデータのサブセットですか？

5 に答える 5

Related

Reference