非 iidデータに関するいくつかの論文を読みました。ウィキペディアに基づいて、私はiid (独立した同一の分散型) データが何であるかを知っていますが、非 iidについてはまだ混乱しています。私はいくつかの調査を行いましたが、明確な定義と例を見つけることができませんでした. 誰かがこれについて私を助けることができますか?
5 に答える
ウィキペディアからiid
:
「独立かつ同一分布」とは、シーケンス内の要素がその前のランダム変数から独立していることを意味します。このように、IID シーケンスはマルコフ シーケンスとは異なります。ここで、n 番目の確率変数の確率分布は、シーケンス内の前の確率変数の関数です (1 次マルコフ シーケンスの場合)。
簡単な合成例として、6 つの面を持つ特別なサイコロがあるとします。前回の額面が 1 の場合、次に投げるときは、0.5 の確率で額面の 1 が得られ、0.1 の確率でそれぞれ 2、3、4、5、6 の額面が得られます。ただし、前回の額面の値が 1 でない場合、各面の確率は等しくなります。例えば、
p(face(0) = k) = 1/6, k = 1,2,3,4,5,6 -- > initial probability at time 0.
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.
これは、n 番目の確率変数 (n 番目のスローの結果) の確率分布がシーケンス内の前の確率変数の関数である場合の例です。
一部の機械学習シナリオでは、非同一で非独立 (たとえば、マルコフ) のデータが見られますが、これは非 iid の例と考えることができます。
ストリーミング データを使用したオンライン学習で、受信するサンプルの分布が時間の経過とともに変化する場合: サンプルは同じように分布していません。オンライン広告のクリックスルー率を予測するための学習モジュールがあるとします。ユーザーからのクエリ タームの分布は、季節的な傾向に応じて年間を通じて変化します。夏とクリスマス シーズンのクエリ タームは、異なる分布を持つ必要があります。
学習者が特定のデータのラベルを要求する能動学習: 独立性の仮定にも違反しています。
グラフィカル モデルを使用した学習/推論。変数は依存関係でつながっています。
非常に手の込んだ方法で (技術的な定義を読んでいると仮定しているため)、iid は、値がたくさんある場合、それらの値のすべての順列が等しい確率を持つことを意味します。つまり、各値は、3,6,7
シーケンス内の他の値に依存しません。7,6,3
6,7,3
反例として、x
各要素x_i
が前の要素よりも 1 つ高いか 1 つ低いシーケンスを想像してください。どちらが発生するかは 50 対 50 の確率です。次に、可能なシーケンスの 1 つが です1,2,3,2,3,4,3,2
。このシーケンスには、等確率ではない順列がいくつかあることは明らかです。特に、開始するシーケンスの1,4,...
確率はゼロです。x_i | x_i-1
代わりに、必要に応じてフォームのペアをiidと見なすことができます。
独立していない問題の例を次に示します。問題定義: 2D 画像にブロブがあるとします。5X5 画像パッチを入力として操作し、中心ピクセルを「境界」または「非境界」として分類するパッチ分類器を作成したいと考えています。要件は、結果として得られるすべてのパッチの分類が、ブロブの境界を正確にトレースする連続した輪郭 (1 ピクセルの厚さ) を定義することです。基本的に、エッジ検出器です。また、境界をわずか数ピクセルずらすというわずかな誤差は問題にならないと仮定しますが、境界の輪郭の連続性は重要です (切れ目があってはなりません)。
これがどのように独立していないか: 例 1: 適切な解の等高線 A があるとします。別の有効な解 B は、A を 2 ピクセル右にシフトしただけです。ピクセル レベルでの分類のほとんどが異なることに注意してください。解決策はまだ有効です。例 2: 出力 C を作成するために 1 つの出力ピクセルのみが 2 ピクセルだけ右にシフトされることを除いて、有効な解 A が得られるとします。今回は輪郭が壊れており、解は有効ではありません。これは、特定のピクセルを境界として分類する必要があるかどうかを判断するために、分類器が他の近くのピクセルの例に対する答えを知る必要があることを示しています。
文字通り、どちらかの方法non iid
の反対である必要があります、または。iid
independent
identical
したがって、たとえば、コインを投げた場合、letX
は結果がテールでY
あるイベントの確率変数であり、結果がヘッドであるイベントの確率変数であり、そしてX
間違いY
なく依存しています。それらはお互いに決めることができます。
非identical
については、2つの確率変数の分布が同じでない場合、それらは非同一と呼ぶことができます。
したがって、どちらの状況が発生しても、non iid
ケースの例が得られる可能性があります。