1

160 万のデータポイントを持つ Twitter のような (別のマイクロ ブログ) データ セットがあり、その内容に基づいてリツイート数を予測しようとしました。そのキーワードを抽出し、キーワードをバッグ オブ ワード機能として使用します。すると、120万次元の特徴が得られました。特徴ベクトルは非常にまばらで、通常は 1 つのデータ ポイントに 10 次元しかありません。そして、SVR を使用して回帰を行います。現在、2日かかりました。研修期間はかなり長いと思います。これが普通のようにこのタスクを実行するかどうかはわかりません。この問題を最適化する方法はありますか、または必要ですか?
ところで。この場合、カーネルは使用せず、マシンは 32GB RAM と i-7 16 コアです。トレーニング時間の見積もりはどのくらいになりますか? lib pyml を使用しました。

4

2 に答える 2

1

問題に適した次元削減アプローチを見つける必要があります。

私はあなたと同様の問題に取り組んできました.Information Gainがうまく機能することがわかりましたが、他にもあります.

この論文 (Fabrizio Sebastiani 著、自動化されたテキスト分類における機械学習、ACM Computing Surveys、Vol. 34、No.1、pp.1-47、2002) は、単純な方法 (項頻度) から複雑な方法 (情報理論) まで、さまざまな方法があります。

これらの関数は、ci の最良の項は、ci の正例と負例のセットで最も異なって分布する項であるという直感を捉えようとします。ただし、この原則の解釈は機能によって異なります。たとえば、実験科学では、観測結果が初期仮説に従って期待される結果とどのように異なるか (つまり、独立性があるか) を測定するために χ2 が使用されます (値が低いほど依存性が低いことを示します)。DR では、tk と ci がどの程度独立しているかを測定します。したがって、χ2(tk, ci) の値が最も小さい項 tk は、ci から最も独立しています。そうでない項に関心があるので、χ2(tk, ci) が最大になる項を選択します。

これらの手法は、トレーニング ドキュメントを特定のクラスに分けるのに最も役立つ用語を選択するのに役立ちます。問題の予測値が最も高い用語。

私は機能削減のために Information Gain を使用して成功しており、この論文 (テキスト分類のエントロピー ベースの機能選択 Largeron、Christine と Moulin、Christophe と Géry、Mathias - SAC - Pages 924-928 2011) が非常に優れた実用的なガイドであることがわかりました。 .

ここで著者は、コードでの実装に役立つエントロピーベースの機能選択の簡単な定式化を提示します。

項 tj とカテゴリ ck が与えられると、ECCD(tj , ck) は分割表から計算できます。tj を含むカテゴリ内のドキュメントの数を A とします。B、tj を含む他のカテゴリのドキュメントの数。C、tj を含まない ck のドキュメントの数、および D、tj を含まない他のカテゴリのドキュメントの数 (N = A + B + C + D):

ここに画像の説明を入力

この分割表を使用すると、情報ゲインは次のように見積もることができます。

ここに画像の説明を入力

このアプローチは実装が簡単で、非常に優れた情報理論機能削減を提供します。

単一の手法を使用する必要もありません。それらを組み合わせることができます。Ter-Frequency は単純ですが、効果的でもあります。機能選択を成功させるために、Information Gain アプローチと Term Frequency を組み合わせました。データを試して、どの手法が最も効果的に機能するかを確認する必要があります。

于 2015-08-27T09:57:17.610 に答える