だから、私はテキストのマルチクラス分類をしようとしています。昔の質問やブログ記事をたくさん読んでいますが、それでもその概念を完全に理解することはできません。
このブログ投稿の例も試してみました。http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/
しかし、マルチクラス分類に関しては、私はそれを完全には理解していません。テキストをフランス語、英語、イタリア語、ドイツ語の多言語に分類したいとします。そして、私はNaviesBayesを使いたいと思っています。これは、最初から始めるのが最も簡単だと思います。私が古い質問で読んだことから、最も簡単な解決策は、1つ対すべてを使用することです。したがって、各言語には独自のモデルがあります。つまり、フランス語、英語、イタリア語の3つのモデルがあります。次に、すべてのモデルに対してテキストを実行し、どのモデルが最も確率が高いかを確認します。私は正しいですか?
しかし、コーディングに関しては、上記の例では、彼はこのようなツイートを持っており、ポジティブまたはネガティブに分類されます。
pos_tweets = [('I love this car', 'positive'),
('This view is amazing', 'positive'),
('I feel great this morning', 'positive'),
('I am so excited about tonight\'s concert', 'positive'),
('He is my best friend', 'positive')]
neg_tweets = [('I do not like this car', 'negative'),
('This view is horrible', 'negative'),
('I feel tired this morning', 'negative'),
('I am not looking forward to tonight\'s concert', 'negative'),
('He is my enemy', 'negative')]
どちらがポジティブかネガティブか。では、フランス語の1つのモデルをトレーニングする場合、テキストにどのようにタグを付ける必要がありますか?こんな感じでしょうか?それで、これはポジティブでしょうか?
[('Bon jour', 'French'),
'je m'appelle', 'French']
そしてネガティブは
[('Hello', 'English'),
('My name', 'English')]
しかし、これは、イタリア語とドイツ語を追加して、4つの言語に対して1つのモデルしか持てないことを意味しますか?それとも私は本当にネガを必要としないのですか?
それで、問題は、ntlkでマルチクラス分類を行うための正しいアプローチは何でしょうか?