0

データ マイニング操作が頻繁に実行されるデータセットがあります。データが更新される頻度に基づいて、データ マイニング操作を実行する頻度を決定したいと考えています。データ更新頻度に基づいて、最適なマイニング頻度を与える式はありますか? そうでない場合、そして私が自分自身を派生させたいと思った場合、どうすればそれを行うことができますか? さらに変数を含めたい場合はどうすればよいですか? 利用可能な読み物がある場合は、いくつかの読み物へのポインタが必要です。ありがとうございました。

4

2 に答える 2

0

データがどのようなものか、またはニーズが何であるかを正確に把握していない - 通常、データマイニングして

  1. データのパターンを見つける
  2. (過去の)データに基づいて将来の決定を行うためのモデルを作成する

次の場合にのみ、さらにデータマイニングする必要があります

  1. 新しいパターンを見つけることができるかもしれない十分な「新しい」データを収集しました
  2. あなたが持っているモデルがもはや新しい現象を予測しないほど十分な「新しい」データを収集した
  3. 新しい手法を開発したか、データマイニングを再度実行することが理にかなっているような方法でデータを変更しました

いくつかの盲目的な推測:

  1. 現在のデータセットの 5% になる新しいデータを収集するたびに操作を実行します。つまり、10 ギガバイトがある場合は、.5 GB を収集した後に操作を実行します (これが実現可能であると仮定します! (1 日未満))。
  2. この規模で新しいデータを収集していない場合、操作を毎週実行することは比較的安価であり、確かに安心できるでしょう。
  3. 1 日あたりギガバイト以上の規模でデータを収集している場合、ボトルネックは操作のコストです。操作に 1 日以上かかる場合は、1 か月に 1 回程度、ご自身の判断で行ってください。この規模になると、運用自体にコンピューティング パワーのコストがかかり始めるため、会社は専門家を雇う必要があります。

数式に関する限り、何もありませんが、統計的有意性に関するウィキペディアの記事を参照してください。

于 2012-06-16T03:40:18.383 に答える
0

これは CS の問題のように聞こえますが、実際には CS の問題ではありません (宿題の問題でない限り... 解決すべき現実の問題があると仮定します)。「データ マイニング」を行っている場合は、ライブ OLTP データベースに対してクエリを実行するだけでなく、別のシステムにキューブを設定するなどのことを行っていると思います。それはユーザーの問題に要約されます。答えは次の要素に依存します。

  • キャプチャしているデータのパターン (周期的、つまり毎時/毎日/毎週)。1 サイクルに 2 回以上の更新は、おそらく役に立たないでしょう。同様に、それがイベント ベースであり、イベントが継続的に発生していない場合、マイニング システムを着信イベントよりも頻繁に更新しても意味がありません。
  • 元のデータを書き込んでいるユーザーやシステムを行き詰まらせることなく、データを収集してデータ マイニングのセットアップに変換できますか? そうでない場合は、システム負荷が低いときにこれを行う必要があります。ログを分析している場合、または自動レプリケーション (つまり、Oracle ストリーム) を利用している場合、おそらくここで制約を受けることはありません。
  • データマイニングを行っている人々/プロセスはいつ停止して新しいデータセットを受け入れることができますか.進行中の作業から敷物を引き出して、彼らが取り組んでいたデータを置き換えることはできません.

答えはおそらく「導き出せる」ものではないでしょう。どちらの側でも、ユーザー (自動または人間) の制約から発生します。

于 2012-06-04T20:43:11.060 に答える