string - 2つのDNA配列を整列させ、相補的な領域を見つけます

Question

リストから手がかりを見つけようとしましたが、見つかりませんでした。繰り返しトピックを尋ねると申し訳ありません。

私はPERLの初心者であり、2つのDNA配列を取り、2番目の配列の逆を計算し、それらの間の最大相補領域を見つけるプログラムをPERLで作成しようとしています。

入力：

CGTAAATCTATCTT
CATGCGTCTTTACG

出力：

CGTAAATCTATCTT
GCATTT--------

2番目のシーケンスの逆を見つけるのに問題はありませんが、PERLでのプログラミングスキルは初歩的です。foreachループにcombinedを使用する必要がありますか？

score 3 · Accepted Answer

これはあなたのために働きますか？

#!/usr/bin/perl
use warnings;
use strict;

sub complement {
    $_[0] =~ y/CGAT/GCTA/;
    return $_[0];
}

sub match {
    my ($s1, $s2) = @_;
    $s2 = reverse $s2;
    complement $s2;
    print "$s1\n";
    my $s2l = length $s2;
    for (my $length = $s2l; $length; $length--) { # start from the longest possible substring
        for my $start (0 .. $s2l - $length) {     # starting position of the matching substring
            my $substr = substr $s2, $start, $length;
            my $pos = index $s1, $substr;
            if ($pos + 1) {
                return ('-' x $pos) . complement "$substr" . ('-' x ($s2l - $length - $pos));
            }
        }
    }
}

print match('CGTAAATCTATCTT',
            'CATGCGTCTTTACG')
    ,"\n";

score 1 · Accepted Answer

おそらくこれはあなたが望むものです（大雑把に）：

#!/usr/bin/env perl
use strict;
use warnings;
die unless @ARGV == 2 && length $ARGV[0] == length $ARGV[1];
my @seq1 = split //, $ARGV[0];
my @seq2 = split //, reverse $ARGV[1];
my @comp;
for my $n (0..@seq1-1) {
    if   ( ($seq1 [$n] eq 'A' && $seq2 [$n] eq 'T') 
        || ($seq1 [$n] eq 'T' && $seq2 [$n] eq 'A') 
        || ($seq1 [$n] eq 'G' && $seq2 [$n] eq 'C') 
        || ($seq1 [$n] eq 'C' && $seq2 [$n] eq 'G') ) {
        push @comp, $seq2[$n];
    }
    else {
        push @comp, '-';
    }
}
print @seq1, "\n", @comp, "\n";

...実行すると：

# ./compseq CGTAAATCTATCTT CATGCGTCTTTACG
CGTAAATCTATCTT
GCATTT------A-

string - 2つのDNA配列を整列させ、相補的な領域を見つけます

2 に答える 2

Related

Reference