まず、昨日pythonから始めました。SciKit と大規模なデータセット (250.000 ツイート) を使用してテキスト分類を実行しようとしています。このアルゴリズムでは、すべてのツイートが 4000 x 1 のベクトルとして表されるため、これは入力が 250.000 行と 4000 列であることを意味します。これをPythonで構築しようとすると、8500回のツイートの後(リストを操作して追加する場合)、メモリが不足し、メモリを事前に割り当てるとエラーが発生します:MemoryError
(np.zeros(4000、2500000))。SciKit はこれらの大規模なデータセットを処理できませんか? 私は何か間違ったことをしていますか (Python を使って 2 日目なので)? 私の記憶に収まるように機能を表す別の方法はありますか?
編集:ベルヌーイNBに行きたい
edit2 :オンライン学習で可能かも?ツイートを読んで、モデルにツイートを使用させ、メモリから削除し、別のツイートを読み、モデルに学習させます...しかし、ベルヌーイNBがscikit-learnでオンライン学習を許可しているとは思いません