3

apache mahout を使用して単純ベイズ分類アルゴリズムを実行しています。アルゴリズムのインスタンスのトレーニングと実行中にグラム サイズを設定するオプションがあります。

n-Gram サイズを 1 から 2 に変更すると、結果の分類が大幅に変更されます。なぜこれが起こるのですか?n-Grams のサイズはどのように結果に劇的な変化をもたらしますか?

4

1 に答える 1

6

1 グラムは単語です。2 グラム (またはバイグラム) は単語のペアです。「United」と「States」、または「United States」の存在に基づいてドキュメントを分類するようなものです。バイグラムを使用すると、スペースとパフォーマンスに影響が出る可能性がありますが、おそらく 1 グラムよりも優れた結果が得られます。

于 2011-12-20T12:16:13.233 に答える