学習しようとしている分類状態空間が非常に大きい場合を除き、100 億から 1000 億のレコードまたはトレーニング サンプルを含むテキスト マイニングに重点を置いたデータセットにはかなりの冗長性があると予想されます。大まかな推測として、相互検証テストで十分に耐えられる信頼性の高い分類子を学習するには、1 ~ 2% のランダム サンプル サブセットよりもはるかに多くのデータが必要になるとは思えません。
簡単な文献検索で、次の関連論文が見つかりました。Tsang の論文では、n 個のトレーニング サンプルに対して O(n) 時間の複雑性があると主張しており、それに関連するソフトウェアが LibCVM ツールキットとして利用可能です。Wolfe の論文では、MapReduce に基づく分散 EM アプローチについて説明しています。
最後に、NIPS 2009 カンファレンスで開催された大規模機械学習ワークショップでは、興味深い関連性の高いプレゼンテーションが数多く行われたようです。
参考文献
Ivor W. Tsang、James T. Kwok、Pak-Ming Cheung (2005)。「Core Vector Machines: Fast SVM Training on Very Large Data Sets」、Journal of Machine Learning Research、vol 6、pp 363–392。
J Wolfe、A Haghighi、D Klein (2008)。「非常に大規模なデータセットに対する完全分散型 EM」、機械学習に関する第 25 回国際会議の議事録、pp 1184-1191。
オリヴィエ・キャンプ、ジョアキン・BL・フィリペ、スリマン・ハモウディ、マリオ・ピアッティーニ (2005)。「サポート ベクター マシン アルゴリズムを使用した非常に大きなデータセットのマイニング」、Enterprise Information Systems V、Springer Netherlands、pp 177-184。