ドキュメントを分類するドキュメント分類器を構築しています。
したがって、最初のステップは、トレーニング目的で各ドキュメントを「特徴ベクトル」として表すことです。
調査の結果、Bag of Words アプローチまたは N-gram アプローチのいずれかを使用して、ドキュメントをベクトルとして表現できることがわかりました。
各ドキュメント (スキャンされた PDF と画像) のテキストは OCR を使用して取得されるため、一部の単語にはエラーが含まれています。また、これらのドキュメントで使用されている言語についての予備知識もありません (ステミングは使用できません)。
したがって、私が理解している限り、n-gram アプローチを使用する必要があります。または、ドキュメントを表す他のアプローチはありますか?
また、より明確な全体像を把握し、それがどのように機能するかを理解するために、誰かが私を N-Gram ガイドにリンクしていただければ幸いです。
前もって感謝します