ニュースのデータセットでテキスト分類を行いたい。、、などsubject
の機能がたくさんあります。これらの機能はすべて、構造体の1つのセル配列に格納され、各構造体は次のようになります。keyword
summary
label: 'misc.forsale'
subj: ' Motorcycle wanted.'
keyword: [1x190 char]
reference: []
organization: ' Worcester Polytechnic Institute'
from: ' kedz@bigwpi.WPI.EDU (John Kedziora)'
summary: []
lines: ' 11'
vocab: [4x2 double]
それらをで分類したいのですclass = classify(test, train, target, 'diaglinear');
が、これらの関数は入力として配列のみを受け取り、セルや構造体を受け入れません。
特徴の量が異なるため、このセル配列を1つの多次元配列に変換できません(たとえば、1つのサブジェクトに2つの単語があり、他のサブジェクトに3つの単語があります)。
私に何ができる?