編集:私はワードリストのサイズが私が書き留めたよりも10-20倍大きいです。ゼロを忘れただけです。
EDIT2:SVDLIBCを調べて、マトリックスを高密度バージョンに縮小する方法も見ていきます。これも役立つかもしれません。
品詞タグ付けとステミングからの出力として巨大なcsvファイルを生成しました。次のようになります。
word1, word2, word3, ..., word 150.000
person1 1 2 0 1
person2 0 0 1 0
...
person650
これには、各人の単語数が含まれています。このように、私は一人一人の特徴的なベクトルを取得しています。
この獣でSVDを実行したいのですが、マトリックスが大きすぎてメモリに保持できず、操作を実行できないようです。私の質問は:
たとえば、列の合計が1である単語を削除して、列のサイズを小さくする必要があります。これは、それらが1回だけ使用されたことを意味します。この試みでデータにバイアスをかけすぎていませんか?
csvをdbにロードして、rapidminerの試行を試みました。そして、rapidminerが提案するように、処理のためにバッチで順次読み取ります。しかし、Mysqlはその数の列をテーブルに格納できません。データを転置してから、インポート時に再転置すると、時間がかかります。
->ですから、一般的に、私はそのようなコーパスでsvdを実行する方法についてアドバイスを求めています。