csv ファイルに非常に大きなデータセットがあります (1,700,000 個の raw と 300 個のスパース フィーチャ)。・欠損値が多い。- データは数値とカテゴリ値の間で異なります。- 従属変数 (クラス) はバイナリ (1 または 0) です。- データが大きく歪んでおり、肯定的な回答の数が少ない。
今、私に求められているのは、このデータに回帰モデルとその他の機械学習アルゴリズムを適用することです。
私はこれが初めてで、助けが必要です.. -回帰モデルの場合、カテゴリデータをどのように扱うのですか? 欠損値はそれにあまりにも多くの影響を与えますか? - このような大規模でまばらな歪んだデータに対して試すことができる最良の予測モデルは何ですか? - どのプログラムを使用するようアドバイスされていますか? Weka を試してみましたが、それほど多くのデータを開くことさえできません (メモリ障害)。ファイルを開くことができるようにするには、欠損値を代入する必要があることに加えて、matlab は数値 csv またはカテゴリ csv を混在させずに開くことができることを知っています。Rのことを少し知っています。
- Excel、Access、Perl スクリプトを使用してデータを操作しようとしています。その量のデータでは非常に困難です。Excel はほぼ 100 万件を超えるレコードを開くことができず、アクセスは 255 列を超える列を開くことができません。なにか提案を。
事前に助けてくれてありがとう