CSV ファイルからツイートを読み取り、定義したカテゴリ (技術、科学、政治など) に分類する Naive Bayes アルゴリズムを実装しようとしています。
NLTK のナイーブ ベイズ分類アルゴリズムを使用したいのですが、この例は私が必要としているものにはほど遠いものです。
私の最大の混乱の 1 つは、NB の分類精度をどのように改善するかということです。
* *分類を行うために必要な詳細な手順について、何らかのガイダンスを得たいと思っています。
- 手動でツイートを入れるカテゴリごとに個別の csv ファイルを作成する必要がありますか?
- 上記を行った場合、アルゴリズムをどのようにトレーニングし、アルゴリズムはどのようにテストしますか?**
私はオンラインで調査しており、NLTK の NB アルゴリズムがツイートの感情分類を行う場合に利用する TextBlob のようないくつかの簡単な例を見つけました。理解するのは簡単ですが、初心者にとって微調整は困難です。
http://stevenloria.com/how-to-build-a-text-classification-system-with-python-and-textblob/
上記のリンクからの彼の例では、ツイートの横に感情を既に配置している場合、彼はどのようにテストを実装しますか? テストしようと思ったのですが、2 番目の引数を非表示にする必要があります。
train = [
('I love this sandwich.', 'pos'),
('This is an amazing place!', 'pos'),
('I feel very good about these beers.', 'pos'),
('This is my best work.', 'pos'),
("What an awesome view", 'pos'),
('I do not like this restaurant', 'neg'),
('I am tired of this stuff.', 'neg'),
("I can't deal with this", 'neg'),
('He is my sworn enemy!', 'neg'),
('My boss is horrible.', 'neg')
]
test = [
('The beer was good.', 'pos'),
('I do not enjoy my job', 'neg'),
("I ain't feeling dandy today.", 'neg'),
("I feel amazing!", 'pos'),
('Gary is a friend of mine.', 'pos'),
("I can't believe I'm doing this.", 'neg')
]