NLTK の Bernoulli Naive Bayes アルゴリズムと scikit-learn モジュールのアルゴリズムを使用して (2 つのカテゴリのみで) テキストを分類すると、まったく異なる結果が得られます。全体的な精度は 2 つの間で同等ですが (まったく同じではありません)、タイプ I とタイプ II のエラーの違いは重要です。特に、NLTK Naive Bayes 分類器は Type II エラーよりも Type I エラーを多く与えますが、scikit-learn は逆です。この「異常」は、さまざまな機能やさまざまなトレーニング サンプルで一貫しているようです。これには理由がありますか?2つのうち、どちらがより信頼できますか?