5

カイ二乗機能の選択を理解するのに問題があります。ポジティブとネガティブの 2 つのクラスがあり、それぞれに異なる用語と用語数が含まれています。各クラスの最も代表的な用語を抽出するには、カイ二乗特徴選択を実行する必要があります。問題は、正のクラスと負のクラスの両方でまったく同じ用語が得られることです。機能を選択するための私の Python コードは次のとおりです。

#!/usr/bin/python

# import the necessary libraries
import math

class ChiFeatureSelector:
    def __init__(self, extCorpus, lookupCorpus):
        # store the extraction corpus and lookup corpus
        self.extCorpus = extCorpus
        self.lookupCorpus = lookupCorpus

    def select(self, outPath):
            # dictionary of chi-squared scores
        scores = {}

        # loop over the words in the extraction corpus
        for w in self.extCorpus.getTerms():
            # build the chi-squared table
            n11 = float(self.extCorpus.getTermCount(w))
            n10 = float(self.lookupCorpus.getTermCount(w))
            n01 = float(self.extCorpus.getTotalDocs() - n11)
            n00 = float(self.lookupCorpus.getTotalDocs() - n10)

            # perform the chi-squared calculation and store
            # the score in the dictionary
            a = n11 + n10 + n01 + n00
            b = ((n11 * n00) - (n10 * n01)) ** 2
            c = (n11 + n01) * (n11 + n10) * (n10 + n00) * (n01 + n00)
            chi = (a * b) / c
            scores[w] = chi

        # sort the scores in descending order
        scores = sorted([(v, k) for (k, v) in scores.items()], reverse = True)
        i = 0

        for (v, k) in scores:
            print str(k) + " : " + str(v)
            i += 1

            if i == 10:
                break

そして、これが私がクラスを使用する方法です (簡潔にするために一部のコードは省略されています。はい、2 つのコーパスにまったく同じデータが含まれていないことを確認しました。

# perform positive ngram feature selection
print "positive:\n"
f = ChiFeatureSelector(posCorpus, negCorpus)
f.select(posOutputPath)

print "\nnegative:\n"
# perform negative ngram feature selection
f = ChiFeatureSelector(negCorpus, posCorpus)
f.select(negOutputPath)

用語/文書テーブルを計算するときにエラーが発生しているように感じますが、よくわかりません。おそらく私は何かを理解していません。誰かが私を正しい方向に向けることができますか?

4

1 に答える 1

2

2 クラスの場合、2 つのデータ セットを交換しても、特徴のカイ 2 乗ランキングは同じです。これらは、2 つのクラス間で最も異なる機能です。

于 2012-07-10T18:03:36.510 に答える