java - wekaで分類するためのテキストを表す方法は？

Question

wekaでテキスト分類の属性またはクラスを表す方法を教えてください。どの属性を使用して分類できますか？単語の頻度または単に単語？ARFFフォーマットの可能な構造は何でしょうか？その構造の例をいくつか教えていただけますか？

事前にどうもありがとうございました。

score 11 · Accepted Answer

最も簡単な代替手段の 1 つは、次のような 2 クラスの問題の ARFF ファイルから始めることです。

@関係コーパス

@attribute テキスト文字列
@属性クラス {pos,neg}

@データ
'単語を含む長いテキスト ... ',pos

テキストは文字列型として表され、クラスは 2 つの値を持つ名義です。

次に、2 つのフィルターを適用できます。

テキストを単語ベクトル表現に変換するStringToWordVector 。フィルタは、単語ごとに属性を使用します。パラメータを微調整して、バイナリ/頻度表現、ステミング、またはストップワードを選択できます。最適な表現は問題によって異なります。テキストが長くない場合、通常はバイナリ表現で十分です。
クラス属性を最後の位置に移動するように並べ替えます。Weka はそこにあると想定します。

この Weka wiki ページで、データを変換するための詳細情報とその他の方法を見つけることができます: http://weka.wikispaces.com/Text+categorization+with+WEKA

score 0 · Accepted Answer

wekaでは、独自の属性を選択できます。この例では、2 つのクラスしかなく、すべての一意の単語が属性として使用されます。属性として単語の頻度を選択した場合、その単語がテキスト内で 2 回出現する場合は「2」、そうでない場合は「0」、その単語が 1 回だけ出現する場合は「1」を割り当てます。

.arff 形式の例を次に示します。

@RELATION anyrelation

@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}

@DATA
1,2,....,0,class1
0,3,....,1,class2

java - wekaで分類するためのテキストを表す方法は？

2 に答える 2

Related

Reference