r - タブ delim ファイルから最長シーケンスを抽出する

Question

次の情報を含むタブ delim ファイルがあります

>fasta 
    >ss_23_122_0_1
    MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS
    >ss_23_167_0_1
    WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW
    >ss_23_167_0_1
    MAASDASDWEPWERIWERIWER
    >ss_23_167_0_1
    QWEKCKLSDOIEOWIOWEUWWEUWEZURZEWURZUWEUZUQZUWZUE
    >ss_45_201_0_1
    HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER
    >ss_45_201_0_1
    ZTTRASOIIDIFOSDIOFISDOFSDFQAWTZETQWE
    >ss_89_10_0_2
    NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP

ss_45_201_0_1複数のエントリがあったようなIDについてはss_23_167_0_1、すべての最大長を持つエントリのみを保持したいと思います。次のような出力を取得したいと思います。

>fasta
    >ss_23_122_0_1
    MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS
    >ss_23_167_0_1
    WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW
    >ss_45_201_0_1
    HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER
    >ss_89_10_0_2
    NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP

Rで次のコードを試しましたが、失敗します

Unique(fasta)

誰でも私を導くことができますか？長さが異なる複数のエントリを持つ同じ ID の最長シーケンスのみを取得するにはどうすればよいですか。

score 2 · Accepted Answer

考慮すべき 3 つのオプションを次に示します。

オプション 1: ベース R

リストを非表示にし、ncharその上で使用aveし、保持する値を把握するために使用します。

x <- nchar(unlist(l))
l[as.logical(ave(x, names(x), FUN = function(x) x == max(x)))]
# $ss_23_122_0_1
# [1] "MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS"
# 
# $ss_23_167_0_1
# [1] "WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW"
# 
# $ss_45_201_0_1
# [1] "HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER"
# 
# $ss_89_10_0_2
# [1] "NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP"

オプション 2:「data.table」

meltfrom "reshape2" を使用してを作成しdata.frameます。rankとともに使用しncharてサブセット化します。(代わりにランクを使用し==たので、nchar2 回使用する必要はありませんでした。比較効率については確認していません。)

library(data.table)
library(reshape2)
as.data.table(melt(l))[, Rnk := rank(nchar(as.character(value))), 
                       by = L1][Rnk == 1]
#                                                 value            L1 Rnk
# 1: MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS ss_23_122_0_1   1
# 2:                             MAASDASDWEPWERIWERIWER ss_23_167_0_1   1
# 3:               ZTTRASOIIDIFOSDIOFISDOFSDFQAWTZETQWE ss_45_201_0_1   1
# 4:      NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP  ss_89_10_0_2   1

オプション 3:「dplyr」

「data.table」と同様のアプローチ。

library(dplyr)
library(reshape2)
melt(l) %>%
  group_by(L1) %>%
  mutate(Rnk = dense_rank(nchar(as.character(value)))) %>%
  filter(Rnk == 1)
# Source: local data frame [4 x 3]
# Groups: L1
# 
#                                                value            L1 Rnk
# 1 MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS ss_23_122_0_1   1
# 2                             MAASDASDWEPWERIWERIWER ss_23_167_0_1   1
# 3               ZTTRASOIIDIFOSDIOFISDOFSDFQAWTZETQWE ss_45_201_0_1   1
# 4      NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP  ss_89_10_0_2   1

score 1 · Accepted Answer

もっとエレガントな方法があるかもしれません...

l <-list(ss_23_122_0_1 = "MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS",
                           ss_23_167_0_1 = "WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW",
                           ss_23_167_0_1 = "MAASDASDWEPWERIWERIWER",
                           ss_23_167_0_1 = "QWEKCKLSDOIEOWIOWEUWWEUWEZURZEWURZUWEUZUQZUWZUE",
                           ss_45_201_0_1 = "HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER",
                           ss_45_201_0_1 = "ZTTRASOIIDIFOSDIOFISDOFSDFQAWTZETQWE",
                           ss_89_10_0_2 = "NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP")

res <- split(l, names(l))
ind <- lapply(split(sapply(l, nchar), names(l)), which.max)
Map(function(x, y) x[y], res, ind)
$ss_23_122_0_1
$ss_23_122_0_1$ss_23_122_0_1
[1] "MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS"


$ss_23_167_0_1
$ss_23_167_0_1$ss_23_167_0_1
[1] "WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW"


$ss_45_201_0_1
$ss_45_201_0_1$ss_45_201_0_1
[1] "HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER"


$ss_89_10_0_2
$ss_89_10_0_2$ss_89_10_0_2
[1] "NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP"

r - タブ delim ファイルから最長シーケンスを抽出する

2 に答える 2

オプション 1: ベース R

オプション 2:「data.table」

オプション 3:「dplyr」

Related

Reference