問題の説明は次のようになります。
Webサイトを考えると、2つの事前定義されたクラスのいずれかに分類する必要があります(eコマースWebサイトかどうかなど)。
複数の前処理技術(ストップワードの削除、ステミングなど)と適切な機能を使用して、このためのナイーブベイズアルゴリズムをすでに試しました。
精度を90またはそれより少し近づけたいのですが、このアプローチでは得られません。
ここでの問題は、精度を手動で評価しているときに、アルゴリズムで見落とされることがあるいくつかの識別子(たとえば、チェックアウトボタン、ショップ/ショッピング、ペイパルなど)を探すことです。
rule based classifier
これらの識別子に確信が持てない場合は、一連のルール(優先度に基づいて記述される)に従ってページを分類する場所を作成してみませんか。
たとえば、ショップ/ショッピングが含まれていて、チェックアウトボタンがある場合は、eコマースページです。そして、いくつかの優先順位の多くの同様のルール。
いくつかのルールに応じて、Webサイトの他のページにもアクセスします(現在、ホームページのみにアクセスします。これも、精度があまり高くない理由です)。
ルールベースのアプローチで直面する可能性のある問題は何ですか?それとも、私たちのユースケースに適していますか?
FOIL, AQ
洗練されたアルゴリズム(例など)を使用してこれらのルールを作成することをお勧めしますか?