nlp - ビッグデータセットの最大エントロピー分類器

Question

私は、500 クラスと 1000 の機能の出力サイズを処理できる最大エントロピー分類の実装を探していました。私のトレーニングデータには約 30,000,000 行あります。エディンバラ大学の maxent ツールである 64 ビット R maxent パッケージである MegaM を使用してみましたが、予想どおり、どれもデータのサイズを処理できません。ただし、データセットのサイズは、この性質の nlp タスクにとっては世界から外れすぎているようには見えません。採用すべきテクニックはありますか？または、私が使用できるツールキットの提案はありますか? 必要に応じてCygwinを使用して、8GBのRAMを搭載した64ビットWindowsマシンでこれを実行しようとしています。

score 10 · Accepted Answer

Vowpal Wabbitは現在、最速の大規模学習者と見なされています。LibLinearは代替手段ですが、3e10要素の行列を処理できるかどうかはわかりません。

「MaxEnt」という用語は、ほとんどNLPの人々によってのみ使用されていることに注意してください。機械学習の人々はそれをロジスティック回帰またはロジットと呼んでいるので、それを検索すると、MaxEntを検索するときよりもはるかに多くのツールが見つかる可能性があります。

nlp - ビッグ データ セットの最大エントロピー分類器

1 に答える 1

Related

Reference

nlp - ビッグデータセットの最大エントロピー分類器