0

cluto 形式の文書用語マトリックスがあります。

#Document #Term #TotalItem
term-x weight-x term-y weight-y (for only nonzeros terms, a row per document)

コーパスの代わりに、このファイルから DocumentTermMatrix(tm package) を作成したいのですが、可能ですか?

Cluto File:
2 3 3
1 3 3 4
2 8

Row File:
car
plane

Column File:
x
y
z

解決:

dtm = as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf);
rows <- scan("rows.txt", what="", sep="\n");
columns <- scan("columns.txt", what="", sep="\n");

dtm$dimnames = list(rows,columns);
4

1 に答える 1

1

これはそれを行う必要があります:

require(slam)
as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf)

CLUTO ファイルにリンクするか、その抜粋を Q に追加できる場合は、行と列の名前を調べることができます。

ヒント: https://r-forge.r-project.org/scm/viewvc.php/pkg/R/foreign.R?root=tm&view=diff&r1=1127&r2=1127&diff_format=s

于 2013-04-02T17:38:40.937 に答える