「一括処理」とは、知識を抽出するために一度に処理されるファクトの静的データセット(CSVなど)を意味します。「オンライン」では、ライブバッキングストアを使用します。ファクトは発生時に追加され(「XはYを購入」)、クエリはこのライブデータで発生します(「今yを見ている人に何をお勧めしますか?」 )。
私はリアルタイムという用語を(誤)使用しましたが、結果が一定の時間内に発生する必要があるという意味ではありません。('''編集:リアルタイムを上記のオンラインに置き換えました''')
ライブデータを利用したレコメンデーションエンジンを考えています。ただし、私が遭遇したすべてのオンラインリソース(SOの質問など)では、リアルタイムと一括処理のデータマイニングパッケージを区別していません。私は個別に検索する必要がありました:
- Lucene / Solrおよびその他のライブデータセットから読み取るCarrot2(オンライン)
- 静的ファイルでスケジュールされた実行を行うKnime(バルク)
- Hadoop(および将来的にはPregelベースのGiraph)で実行されるMahout(オンライン?)
- Cassandraと統合する商用パッケージ(オンライン?)
オンラインデータマイニングパッケージとは何ですか?
文献がオンライン処理パッケージとバルク処理パッケージを区別しない理由はありますか?それとも、すべての実用的なデータマイニングは実際にはバルク操作ですか?