3

ニュースのデータセットでテキスト分類を行いたい。、、などsubjectの機能がたくさんあります。これらの機能はすべて、構造体の1つのセル配列に格納され、各構造体は次のようになります。keywordsummary

       label: 'misc.forsale'
        subj: ' Motorcycle wanted.'
     keyword: [1x190 char]
   reference: []
organization: ' Worcester Polytechnic Institute'
        from: ' kedz@bigwpi.WPI.EDU (John Kedziora)'
     summary: []
       lines: ' 11'
       vocab: [4x2 double]

それらをで分類したいのですclass = classify(test, train, target, 'diaglinear');
が、これらの関数は入力として配列のみを受け取り、セルや構造体を受け入れません。

特徴の量が異なるため、このセル配列を1つの多次元配列に変換できません(たとえば、1つのサブジェクトに2つの単語があり、他のサブジェクトに3つの単語があります)。

私に何ができる?

4

1 に答える 1

1

最初にいくつかの特徴抽出を行います。たとえば、文字列をトークン化してから TF-IDF を使用します。

トークンにキーを含めることができます。これは、情報検索の一般的な方法です。例については、Xapian のマニュアルを参照してください。

通常、ステミングを行いますExamples -> exampl。次に、接頭辞を追加して、出現に応じて単語を区別します。たとえばSexampl、件名に含まれる場合exampleKexampl、それがキーワードである場合です。

次に、どこでも使用される「言葉の袋」表現を取得します。画像をマイニングするためにもこれを行います。これは「ビジュアル ワード」と呼ばれます。これらも英単語ではありません。

于 2012-06-03T18:34:12.853 に答える