r - R: ビッグデータ: 文字列の長さを決定する

翻译自：https://stackoverflow.com/questions/35138404 2016-02-01T19:14:29.417

88 次

私のデータは、何百万行もある以下のようになります。このテキストをテキストファイルにコピーして、以下の例で読み込むことができます。

@HISEQ:104:C7Y3WACXX:4:1101:1307:1946 1:N:0:CGATGT
NTCCGGTAGTGTAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCACC
+                                                 
#0<FFFBBFBFFFFFIFIFIIIIIIIFIIIIIIIIIIIIIIIIFIIFIII
@HISEQ:104:C7Y3WACXX:4:1101:1356:1968 1:N:0:CGATGT
CGAGAGCTTTGAAGGCCGAAGTGGAAGATCGGAAGAGCACACGTCTGAAC
+                                                 
BBBFFFFFFFFFFFFFFFIIIBFFIIIIIFIIIIIIIIIIIIIFFFFFFF

上記のテキストを読み込んで、N、C、G、または T で始まる文字列の長さを判断しようとしています。通常は次のようにします。

f <- scan(filepath,nmax=8,what="character",sep="\n")
f1 <- f[grep("^[NAGCT]+",f)]
nchar(f1)

ffパッケージで同じことをするにはどうすればよいですか？

library(ff)
f <- read.table.ffdf(file=filepath,header=F,nrow=8,sep="\n")

さまざまなアプローチを試しましたが、どれも機能しません。

r - R: ビッグデータ: 文字列の長さを決定する

0 に答える 0

Related

Reference