最近、私は、Cavnar と Trenkle の記事「N-Gram-Based Text Categorization」やその他の関連ソースに基づいて、テキストの分類と言語の分類をいじっています。
言語分類を行う場合、この方法は非常に信頼性が高く便利であることがわかりました。ドキュメントから最も一般的な n 個の N-gram を使用しているだけなので、N-gram 頻度プロファイルを生成するために使用されるドキュメントのサイズは、「十分な長さ」である限り、それほど重要ではありません。
一方、適切に機能するテキストの分類は私にはわかりません。IDF の重み付けや他の人々の実装などのさまざまな調整の有無にかかわらず、手元にあるアルゴリズムのさまざまなバリエーションの独自の実装の両方を試しました。カテゴリ参照ドキュメントに対してある程度類似したサイズの頻度プロファイルを生成できる限り、それは非常にうまく機能しますが、それらが少しだけ違い始めた瞬間、全体がバラバラになり、プロファイルが最も短いカテゴリが不均衡になりますそれに割り当てられたドキュメントの数。
さて、私の質問です。この影響を補償するための好ましい方法は何ですか? アルゴリズムは、カテゴリ頻度プロファイルの長さに等しい特定の N グラムの最大距離を想定しているため、明らかに発生していますが、何らかの理由で、それを修正する方法について頭を悩ませることはできません。私がこの修正に興味を持っている理由の 1 つは、実際には、長さが異なる可能性がある既知のカテゴリを持つドキュメントに基づいて、カテゴリ プロファイルの生成を自動化しようとしているからです (プロファイルが同じ長さであっても、最終的には長さが違う)。これに対する「ベストプラクティス」ソリューションはありますか?