シーケンスの長いリスト間のペアごとの違いの数を計算し、それを行列形式に戻したいと思います。
私は数百の遺伝子配列を持っており、各配列はすでに整列されており、同じ長さ (約 300 文字) です。編集距離アルゴリズム (ハミング、レベインシュタインなど) の 1 つを探しているのではなく、2 つのシーケンス間の絶対差の数を取得したいと考えています。シーケンスは、各文字位置で比較する必要があります。
例えば、
Sequence 1: "GAT-ACA"
Sequence 2: "AT-GCGA"
Number of differences: 6
(ダッシュは、シーケンスを整列できるようにするためにあります。私のシーケンスにはダッシュも含まれる場合があります)。
短い計算時間で、python (または他の言語) を使用してこれを行う効率的な方法はありますか? 私もRでこの質問をしましたが、最初はそのようにするつもりでしたが、数百のシーケンスに適用するには遅すぎることが判明しました。
ありがとうございました!