個人的なプロジェクトの場合、それらを分類するために、さまざまなテキストに対していくつかの機械学習アルゴリズムを実行する必要があります。
以前はRapidMinerを使用してこれを行っていましたが、より制御しやすいと感じたため、すべての開発をRに移行することにしました。
私が今見ている問題(RapidMinerでは気づかなかった)は、モデルのロードに時間がかかることです。
例えば:
テキストがスポーツを参照しているかどうかをチェックするモデルがあります。モデルはそうです、そしてそれは私と一緒37.7 MB
にかかります8:34
2.2 GH i7 Mac with 4GB of RAM
私がモデルと呼んでいる方法は次のとおりです。
fileNameMatrix = paste(query,query1,"-matrix.Rd", sep ="")
fileNameModel= paste(query,query1,"-model.Rd", sep ="")
load(fileNameMatrix)
load(fileNameModel)
モデルはを使用して生成されましたRTextTools
あなたが読んだこれらのクエリ変数は、私がほぼ20のモデルを呼び出して、それらを異なるデータセットと比較する必要があるためです。そのため、8分はそれほど多くありませんが、すべてを読んだ場合、ロード時にほぼ3時間かかるため、ほぼリアルタイムのタスクを考えると、私のタスクはほとんど役に立たなくなります。
モデルのサイズを縮小するオプションがない場合、読み込み時間を短縮するために考慮すべき要素はどれですか?
私が疑わしいと思うもう1つのことは、マトリックスファイルはかなり小さいですが64KB
、モデルはまだ37.7MB
です。モデルファイルが必要以上に大きい可能性はありますか?RTextToolsを使用して同様のことを経験した人はいますか?
これは、Rのモデルを使用する最初のタスクの1つなので、明らかに間違っていることをしている場合は失礼します。
お時間をいただき、ありがとうございました。正しい方向へのヒントをいただければ幸いです。