1

個人的なプロジェクトの場合、それらを分類するために、さまざまなテキストに対していくつかの機械学習アルゴリズムを実行する必要があります。

以前はRapidMinerを使用してこれを行っていましたが、より制御しやすいと感じたため、すべての開発をRに移行することにしました。

私が今見ている問題(RapidMinerでは気づかなかった)は、モデルのロードに時間がかかることです。

例えば:

テキストがスポーツを参照しているかどうかをチェックするモデルがあります。モデルはそうです、そしてそれは私と一緒37.7 MBにかかります8:342.2 GH i7 Mac with 4GB of RAM

私がモデルと呼んでいる方法は次のとおりです。

fileNameMatrix = paste(query,query1,"-matrix.Rd", sep ="")
fileNameModel= paste(query,query1,"-model.Rd", sep ="")

load(fileNameMatrix)
load(fileNameModel)

モデルはを使用して生成されましたRTextTools

あなたが読んだこれらのクエリ変数は、私がほぼ20のモデルを呼び出して、それらを異なるデータセットと比較する必要があるためです。そのため、8分はそれほど多くありませんが、すべてを読んだ場合、ロード時にほぼ3時間かかるため、ほぼリアルタイムのタスクを考えると、私のタスクはほとんど役に立たなくなります。

モデルのサイズを縮小するオプションがない場合、読み込み時間を短縮するために考慮すべき要素はどれですか?

私が疑わしいと思うもう1つのことは、マトリックスファイルはかなり小さいですが64KB、モデルはまだ37.7MBです。モデルファイルが必要以上に大きい可能性はありますか?RTextToolsを使用して同様のことを経験した人はいますか?

これは、Rのモデルを使用する最初のタスクの1つなので、明らかに間違っていることをしている場合は失礼します。

お時間をいただき、ありがとうございました。正しい方向へのヒントをいただければ幸いです。

4

2 に答える 2

2

私は RTextTools からのモデル出力に慣れていませんが、モデル オブジェクトが入力データ フレームよりも大幅に大きくなることはよくあることです。たとえば、glmの出力には、すべての入力データだけでなく、予測値、残差、係数、エラーなどが含まれます。RandomForestモデルの出力には、入力データと何千ものツリーなどの定義が含まれます。

モデルの読み込み時間は、最初から実行する場合と比べてどうですか? モデル オブジェクトに何が含まれているかを調べて、必要のない統計情報を除外する可能性があるかどうかを調べましたか?

str(fileNameModel)
于 2012-08-23T04:08:32.510 に答える
1

アクティビティ モニターで RAM の使用状況を確認しましたか? 圧縮RDataファイルは比較的小さいですが、解凍すると巨大になります。たとえば、n x nすべて0の行列は基本的にスペースを占有しませんn(これは、行列のサイズが小さいことを説明している可能性があります)。ロードされたモデルは巨大になる可能性があります。私はいくつかのRDataファイルを持っています200 MBが、それはメモリにロードできませんR. RAM が不足している場合、コンピューターがドライブの空き容量を使用してファイルをロードしようとする可能性があるため、これが問題になる可能性があります。

于 2012-08-23T08:23:30.840 に答える