13

igraphと を使用して、単変量ネットワーク データの分類ツールキットを実装しようとしていますpython

ただし、私の質問は、実際にはプログラミングではなく、リレーショナル分類領域のアルゴリズムに関する質問です。

私はNetworked Data paper の分類に従っています。

この論文で説明されているリレーショナル分類器の 1 つである" Network-Only Bayes Classifier " (NBC) が何を指しているのか理解に苦慮しています。

Naive Bayes先ほど、bag of words 特徴表現を使用してテキスト データの分類子を実装しました。そして、Naive Bayesテキストデータのアイデアは私の頭の中では明らかです。

この方法(NBC)は、同じ考え方を単純に関係分類領域に翻訳したものだと思います。しかし、方程式で使用されている表記法に混乱しているため、何が起こっているのかわかりませんでした。また、この論文で使用されている表記法についても質問があります

NBC は紙面14 ページで説明されていますが、

ここに画像の説明を入力

概要:

論文の 14 ページで説明されている「 Network-Only Bayes Classifier」(NBC)の疑似コードが必要です。

擬似コード表記:

  1. vsグラフの頂点のリストを呼び出しましょう。len(vs)長さです。vs[i]は i 番目の頂点です。
  2. vs[i].class単変量0および二値のシナリオがあると仮定しましょう1
  3. すべてのノードがローカル分類器によって計算される初期ラベルを持つように、前にローカル分類器を実行すると仮定しましょう。私はリレーショナル分類子の部分にのみ興味があります。
  4. v予測しようとしている頂点を呼びましょう。v.neighbors()これは の隣接する頂点のリストですv
  5. すべての辺の重みが であると仮定しましょう1

ここで、次の疑似コードが必要です。

def NBC(vs, v):
   # v.class is 0 or 1
   # v.neighbors is list of neighbor vertices
   # vs is the list of all vertices

   # This function returns 0 or 1

編集:

あなたの仕事をより簡単にするために、私はこのを行いました. 最後の 2 つの方程式の答えが必要です。

4

1 に答える 1

3

言葉で...

x_iノードがクラスに属する確率は次のようになりますc

  • x_i( と呼ばれるN_i) がx 実際にクラス に属している場合の近傍の確率c。掛ける...
  • クラスc自体の確率。で割った ...
  • N_i(ノードのx_i) 近傍自体の確率。

クラスに属する場合の近傍N_i(の)の確率に関する限り、それは次のようになります。x_ixc

  • ある程度の確率の産物。(どの確率?)
  • 実際にクラスに属している場合v_j、近傍 ( ) の一部のノード ( ) がN_iクラスに属する確率cxc
    • (検査されているノードと分類されているノードを接続するエッジの重みに上げられます...しかし、あなたはこれに興味がありません...まだ)。(表記はここで少しずれていると思います。なぜ彼らはそれを定義v_jしてから決して使用しないのですか?...何でも)。
  • 最後に、product of some probabilityに someを掛け1/Zます。なんで?すべてpの s は確率であり、したがって 0 から 1 の範囲内にありますが、重みwは何でもかまいません。つまり、最終的に計算された確率が範囲外になる可能性があるからです。

  • 一部がその近隣からの証拠x_iが与えられたクラスに属する確率cは、事後確率です。(AFTER 何か...これは何ですか? ...以下を参照してください)

  • そのクラスに属しているN_i場合に近隣が出現する確率が尤です。x_ic

  • クラスc自体の確率は事前確率です。何かの前に...これは何ですか?確たる証拠。事前確率は、証拠が提示されていないクラスの確率を示しますが、事後確率は、近隣からの証拠が与えられた特定のイベント (にx_i属するc) の確率を示します。

以前のは、主観的である可能性があります。つまり、限られた観察によって導き出されるか、情報に基づいた意見である必要があります。つまり、人口分布である必要はありません。それは完全に知られているわけではなく、十分に正確である必要があるだけです。

可能性はもう少し難しいです。ここに式がありますが、可能性は、十分に大きな母集団、または観察されている現象に関するできるだけ多くの「物理的」知識から推定する必要があります。

積 (尤度を表す 2 番目の方程式の大文字 Pi) 内に条件があります。x条件付きは、クラスに属している場合、近傍ノードがあるクラスに属する確率ですc

Naive Bayesian Classifierの典型的なアプリケーションでは、ドキュメントの分類(例: スパム メール)、観察の巨大なデータベース、または電子メールの巨大なデータベースによって導出an email is spam GIVEN THE APPEARANCE OF SPECIFIC WORDS IN ITS BODYされる条件式で、それらがどのクラスに属しているかを本当に絶対に知っています。 . 言い換えれば、スパムメールがどのように見えるかを理解する必要があり、最終的に、スパムメールの大部分はいくつかの共通のテーマに収束します (私は銀行の役人であり、あなたにお金の機会があります。あなたの銀行をください)。あなたにお金を送金し、あなたを金持ちにするための詳細...)。

この知識がなければ、ベイズ ルールを使用することはできません。

それで、あなたの特定の問題に戻るために。PDF では、製品の派生に疑問符があります。

丁度。

したがって、ここでの本当の質問は次のとおりです。グラフ/データからの可能性は何ですか?

(...またはどこからそれを導き出すつもりですか? (明らかに、多数の既知の観察または現象に関する何らかの知識のいずれかです。も感染しています))。

これが役立つことを願っています。

于 2015-07-06T08:52:43.437 に答える