1

アプリオリ アルゴリズムを使用して、顧客アカウントで発生したエラーを推測しようとしています。だから私は次のようなエラーテーブルを持っています:

error_id error_code cust_id  
1 M015 100  
2 M020 101  
3 M016 100  
4 M019 100  
5 M015 102

...

そして、M015 で予想されるエラーを確認したいと思います。
(例: M015 -> ??)

問題は、エラー テーブルに数十万の項目が含まれており、考えられるエラー コードが数百あることです。では、可能な限り多くの可能なルールを返すために、非常に低い信頼度でアルゴリズムを実行しますか? それとも、エラー データベースを絞り込んで、関心のあるエラーを含む「トランザクション」のみを含めるようにしますか?

(たとえば、この例では、ルール M015 を探している場合、トランザクション テーブルを cust_id 100 と 102 の項目のみに制限する必要がありますか?)

4

1 に答える 1

0

最小の信頼度とサポートのしきい値については、高い値から始めて、十分な結果が得られなかった場合は値を下げることをお勧めします。

しかし、そうでなければ結果は役に立たないので、信頼度を高く保つべきだと思います。たとえば、少なくとも 50% の信頼度が必要だとします。

はい、最適化のために、関心のあるアイテムを含むルールのみを検索するようにアルゴリズムを変更できます。これにより、アルゴリズムは非常に大量のルールを生成しなくなります。

ただし、関連は因果関係ではないことを忘れないでください。時間に応じて予測を行いたい場合は、たとえば、相関ルール マイニング アルゴリズムの代わりに、「シーケンシャル ルール マイニング アルゴリズム」または「シーケンシャル パターン マイニング アルゴリズム」を使用できます。

于 2011-10-23T12:25:15.897 に答える