1

私は R でおおよその文字列マッチングを行っています。私はこの手法にかなり慣れていませんが、x 文字列が y 文字列の一部と正確に一致するインスタンスを見つけたいので、0 のレーベンシュタイン スコアにのみ関心があります (これは正しいですか?アプローチ?)。

結果をサブセット化する最も便利な方法は何ですか? 約 10,000 の列と 1,000 の行があるため、結果を効率的に視覚化する方法があるかどうかもわかりません。この質問のタクトの欠如をお詫び申し上げます。私はこれについての経験が不足しています。

4

2 に答える 2

0

これにより、ゼロを含むすべての行と列が保持されます。

set.seed(2234)

my.data <- as.data.frame(matrix(sample(0:2,20,replace=TRUE), nrow=5))
my.data

aa <- unique(which(my.data==0,arr.ind=TRUE)[,1])
bb <- unique(which(my.data==0,arr.ind=TRUE)[,2])

my.data2 <- my.data[sort(aa),sort(bb)]
my.data2

> my.data
  V1 V2 V3 V4
1  2  0  2  1
2  2  2  1  2
3  2  1  1  0
4  2  2  2  1
5  1  0  0  0

> my.data2
  V2 V3 V4
1  0  2  1
3  1  1  0
5  0  0  0
于 2014-02-13T04:55:10.100 に答える