私が読んでいる論文で、次のように行われた大まかな文字列比較を見つけました。
彼らが使用する式は次のとおりです (より一般的で読みやすいように、小さな単語を変更して論文から抽出したものです) 著者による説明はあまり明確ではないため、私は自分の言葉でもう少し説明しようとしました (例を使用して)作者による)
たとえば、ABCDE と BCEFA の 2 つのシーケンスの場合、2 つの可能なグラフがあります。
グラフ 1) B と BC を C と、E と E を接続するグラフ
グラフ 2) A と A を接続します
他の 3 つを接続している場合 (グラフ 1)、A と A を接続することはできません。これは、交差する線になるためです (BB、CC、EE の間に線を引くと想像してください)。つまり、AA にインクを塗った線は、BB、CC、および EE を結ぶ線と交差します。したがって、これら 2 つのシーケンスは 2 つの可能なグラフになります。1 つには 3 つの接続 (BB、CC、および EE) があり、もう 1 つの接続には 1 つのみ (AA) があり、次の式で与えられるスコア d を計算します。
したがって、2 つのペンタストリング間の類似度を定義するには、それらの間の距離 d を計算します。2 つのペンタストリングを並べて、キャラクター間のすべてのアイデンティティーを探します。各 ID が両方のペンタストリング間のリンクによって表される場合、このペアのグラフを定義します。このグラフの任意の部分を構成と呼びます。
次に、文字のクロス ペアリングがないすべての構成を保持します (意味は上記の例で説明されています。つまり、同一文字間のリンクの交差はなく、それらのグラフのみが保持されます)。次に、これらのそれぞれは、グラフに関連する文字の数 p、対応するペアのシフト Δi、および各五文字列の接続された文字間のギャップ δij の関数として評価されます。最小値は特性として選択され、距離 d と呼ばれます: d Min(50 – 10p + ΣΔi + Σδij) 非常に大雑把ですが、この尺度は一般に定性的な目視による推定とよく一致しています。たとえば、 と の間の距離 は 20 ですが、
abcde
との間の距離は 23 =(50 – 30 + 1 +2) です。abcfg
abcde
abfcg
私はこれを行う方法について混乱しています。私を助けるための提案は大歓迎です。
レーベンシュタインと、タンパク質配列比較で使用される単純な配列アラインメントも試しました。論文へのリンクは次のとおりです 。
筆頭著者である Alain Figureau に関する情報は見つかりませんでした。また、MA Soto へのメールにはまだ返信がありません (今日現在)。
ありがとうございました