1

n 個のカテゴリ/ラベルを持つ機能数のリストがあるとします。例:

feature 1,label1 = 10 # word, label = frequency count
feature 1,label2 = 0
feature 2,label1 = 3
feature 2,label2 = 0

json の場合、"bad" と "good" という単語は次のようになります。

{
 "bad": {"pos": 1, "neg": 15, "neu": 2},
 "good": {"pos": 13, "neg": 3, "neu": 2},
}

これはファイルにあり、古いアプリケーションから継承されたものです (元のドキュメントにアクセスできません、長い話です) が、関連性があり、使用したいと思います。このアプリケーションは、私が開発したいものと同じ、新聞のコメントを取得して分類する感情分類アプリでした。

では、これらのカウントを Tf-df Vectorizer または CountVectorizer にフィードする方法、またはベクトライザーの実行から得られた結果、つまり以下のコードの X_train_count とマージする方法は次のとおりです。

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> count_vect = CountVectorizer()
>>> data_train = {"data": ["ola good", "hey good", "good", "good", "bad", "bad", "bad"], "target":[1,1,1,1,0,0,0]}
>>> X_train_count = count_vect.fit_transform(data_train["data"])
>>> count_vect.get_feature_names()
[u'bad', u'good']
>>> print X_train_count
  (0, 1)        1
  (1, 1)        1
  (2, 1)        1
  (3, 1)        1
  (4, 0)        1
  (5, 0)        1
  (6, 0)        1

助けてくれてありがとう!

4

0 に答える 0