Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
apache mahout を使用して単純ベイズ分類アルゴリズムを実行しています。アルゴリズムのインスタンスのトレーニングと実行中にグラム サイズを設定するオプションがあります。
n-Gram サイズを 1 から 2 に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?n-Grams のサイズはどのように結果に劇的な変化をもたらしますか?
1 グラムは単語です。2 グラム (またはバイグラム) は単語のペアです。「United」と「States」、または「United States」の存在に基づいてドキュメントを分類するようなものです。バイグラムを使用すると、スペースとパフォーマンスに影響が出る可能性がありますが、おそらく 1 グラムよりも優れた結果が得られます。