wekaでテキスト分類の属性またはクラスを表す方法を教えてください。どの属性を使用して分類できますか?単語の頻度または単に単語?ARFFフォーマットの可能な構造は何でしょうか?その構造の例をいくつか教えていただけますか?
事前にどうもありがとうございました。
wekaでテキスト分類の属性またはクラスを表す方法を教えてください。どの属性を使用して分類できますか?単語の頻度または単に単語?ARFFフォーマットの可能な構造は何でしょうか?その構造の例をいくつか教えていただけますか?
事前にどうもありがとうございました。
最も簡単な代替手段の 1 つは、次のような 2 クラスの問題の ARFF ファイルから始めることです。
@関係コーパス @attribute テキスト文字列 @属性クラス {pos,neg} @データ '単語を含む長いテキスト ... ',pos
テキストは文字列型として表され、クラスは 2 つの値を持つ名義です。
次に、2 つのフィルターを適用できます。
この Weka wiki ページで、データを変換するための詳細情報とその他の方法を見つけることができます: http://weka.wikispaces.com/Text+categorization+with+WEKA
wekaでは、独自の属性を選択できます。この例では、2 つのクラスしかなく、すべての一意の単語が属性として使用されます。属性として単語の頻度を選択した場合、その単語がテキスト内で 2 回出現する場合は「2」、そうでない場合は「0」、その単語が 1 回だけ出現する場合は「1」を割り当てます。
.arff 形式の例を次に示します。
@RELATION anyrelation
@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}
@DATA
1,2,....,0,class1
0,3,....,1,class2