7

lm() や glm() などと同様に、式を最初の引数として受け入れる R 関数を書きたいと思います。この場合、これはデータ フレームを取得し、次の一般的な形式を持つSVMLight形式でファイルを書き出す関数です。

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

たとえば、次のデータ フレーム:

  result qid     f1     f2     f3     f4   f5     f6     f7     f8
1     -1   1 0.0000 0.1253 0.0000 0.1017 0.00 0.0000 0.0000 0.9999
2     -1   1 0.0098 0.0000 0.0000 0.0000 0.00 0.0316 0.0000 0.3661
3      1   1 0.0000 0.0000 0.1941 0.0000 0.00 0.0000 0.0509 0.0000
4     -1   2 0.0000 0.2863 0.0948 0.0000 0.34 0.0000 0.7428 0.0608
5      1   2 0.0000 0.0000 0.0000 0.4347 0.00 0.0000 0.9539 0.0000
6      1   2 0.0000 0.7282 0.9087 0.0000 0.00 0.0000 0.0000 0.0355

次のように表されます。

-1 qid:1 2:0.1253 4:0.1017 8:0.9999
-1 qid:1 1:0.0098 6:0.0316 8:0.3661
1  qid:1 3:0.1941 7:0.0509
-1 qid:2 2:0.2863 3:0.0948 5:0.3400 7:0.7428 8:0.0608
1  qid:2 4:0.4347 7:0.9539
1  qid:2 2:0.7282 3:0.9087 8:0.0355

私が書きたい関数は、次のように呼び出されます。

write.svmlight(result ~ f1+f2+f3+f4+f5+f6+f7+f8 | qid, data=mydata, file="out.txt")

あるいは

write.svmlight(result ~ . | qid, data=mydata, file="out.txt")

しかし、使用方法model.matrix()や、model.frame()どの列を書き込むべきかを知ることができません。これらは正しいものですか?

どんな助けでも大歓迎です!

4

2 に答える 2

4

部分的な回答。数式オブジェクトに添字を付けて、数式の解析ツリーを取得できます。

> f<-a~b+c|d
> f[[1]]
`~`
> f[[2]]
a
> f[[3]]
b + c | d
> f[[3]][[1]]
`|`
> f[[3]][[2]]
b + c
> f[[3]][[3]]
d

必要なのは、このツリーをたどるコードだけです。

更新: ツリーをたどる関数の例を次に示します。

walker<-function(formu){
  if (!is(formu,"formula"))
    stop("Want formula")
  lhs <- formu[[2]]
  formu <- formu[[3]]

  if (formu[[1]]!='|')
    stop("Want conditional part")

  condi <- formu[[3]]

  flattener <- function(f) {if (length(f)<3) return(f);
                            c(Recall(f[[2]]),Recall(f[[3]]))}
  vars <- flattener(formu[[2]])

  list(lhs=lhs,condi=condi,vars=vars)
}

walker(y~a+b|c)

terms.formulaおよびのドキュメントも参照してくださいterms.object。条件式を取るいくつかの関数のコードを見ると、たとえば次のように役立ちます。パッケージ内のlmer機能。lme4

于 2010-03-12T04:43:41.070 に答える
0

使った

formu.names <- all.vars(formu)
Y.name <- formu.names[1]
X.name <- formu.names[2]
block.name <- formu.names[3]

フリードマン テストの事後処理について書いたコードでは、次のようになります。

http://www.r-statistics.com/2010/02/post-hoc-analysis-for-friedmans-test-r-code/

ただし、次の場合にのみ機能します: Y`X|ブロック

他の人が与えるより良い答えを願っています。

于 2010-03-11T22:25:21.953 に答える