2

weka ツールを使用して、データセットから一連の分類ルールを生成しようとしています。データセットは現在、次の形式の .txt ファイルです。

ウェブページ attr1 attr2 attr3.....attrn タイプ
try.html 1 2 3.....

(各単語はタブで区切られています)

これをwekaの適切な入力ファイルに変換するにはどうすればよいですか? csv に変換してから arff 形式に変換しようとしましたが、うまくいかず、2 つのエラーheader stream is invalidまたはattribute names are not unique.

4

1 に答える 1

2

ARFFファイルの形式は次のとおりです。

@RELATION aNameForTheRelation

@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE

@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v

基本的にはヘッダー付きのCSVファイルにすることができます。ARFFファイルのヘッダーを手動で書き込んでCSVファイル情報を追加しようとしましたか?自動化ツールが、結果のARFFの属性の適切な命名を検出できなかった可能性があります

于 2011-04-08T04:18:41.910 に答える