machine-learning - テキスト分類における N-gram と他の分類子

Question

私はテキスト分類技術を初めて使用します。テキスト分類の N グラムアプローチと他の分類子 (決定木、KNN、SVM) ベースのテキスト分類の違いを知りたいです。

どちらが優れているか知りたいのですが、n-gram は分類子に分類されますか? n-gram は分類器技術の欠点を克服しますか?

このすべての手法に関する比較情報はどこで入手できますか。

前もって感謝します。

score 10 · Accepted Answer

nグラムモデルを分類子として使用できることは明らかであるため、実際にこれに対する完全な回答を投稿します（機能の確率モデルを1つとして使用できるのとほぼ同じ方法で）。

生成的分類器は、対象の事後 p(class | test doc) を次のように近似します。

p(c|t) \propto p(c) p(t|c)

ここで、p(c) は c の事前確率、p(t|c) は尤度です。分類は、すべての c で arg-max を選択します。Naive Bayes や LDA などの任意の生成モデルと同様に、n-gram 言語モデルは、クラスごとに個別のモデルを推定する場合、確率モデル p(t|c) として解釈できます。そのため、分類に必要なすべての情報を提供できます。

問題はもちろん、そのモデルが役に立つかどうかです。主な問題は、n-gram モデルが数十億語のテキストで構築される傾向にあり、分類器が数千語で訓練されることが多いことです。すべてのクラスのモデルのパラメータにジョイントプライオリティを設定したり、ハイパーパラメータを等しくなるようにクランプしたり (これらのパラメータが何であるかは、スムージングの方法によって異なります) などの複雑なことを実行できますが、それでもなおトリッキーです。

別の方法は、文字の n-gram モデルを構築することです (有用であることが判明した場合は、スペース/句読点を含めます)。これは、はるかに確実に推定でき (~20000^3 ではなく、トライグラムモデルの 26^3 パラメーター)、著者の識別/ジャンル分類/文体要素を持つ他の形式の分類に非常に役立ちます。

score 7 · Accepted Answer

N-gram は分類子ではなく、確率的言語モデルであり、基本単位のシーケンスをモデリングします。これらの基本単位は単語、音素、文字などです。N-gram は基本的に、長さ n のシーケンスにわたる確率分布であり、テキストの表現を構築するときに使用できます。

分類子はアルゴリズムであり、テキストの表現に n-gram を使用する場合と使用しない場合があります。

machine-learning - テキスト分類における N-gram と他の分類子

2 に答える 2

Related

Reference