まず、arffファイルを生成する必要があります。
以下のarffファイル形式:
@RELATION section
には、前処理後にドキュメント全体に存在するすべての単語が含まれます。tfidf 値は実数値であるため、各単語は実数型になります。
@data section
前処理中に計算されたtfidf 値が含まれます。たとえば、最初のドキュメントには、最初のドキュメントに存在するすべての単語と最後の列のドキュメント カテゴリの tfidf 値が含まれます。
@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}
@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med
このファイルを生成した後、このファイルを への入力として渡すことができますInfoGainAttributeEval.java
。これは私のために働いています。