私の質問はバイオインフォマティクス、特にタンパク質配列に関するものですが、生物学の知識は本当に必要ありません。Perl でこの問題を解決する効率的な方法を見つけようとしています。
タンパク質配列は基本的に、長さの異なる配列または文字列であり、20 個のアミノ酸または文字の組み合わせで構成されています。
したがって、長さが 1 の場合、20 の可能性があります。問題は、文字が 1 つ増えるごとに、可能性の数が大幅に増加することです。
すべての長さのすべてのシーケンスで別の計算を計算したかったのです。タンパク質配列は、数百、さらには数千のアミノ酸である可能性があります。これを行うには、可能なすべてのシーケンスを取得する必要があります。
編集:すべての長さを計算することは不可能であることを認識しています。これを行う必要はありませんが、宇宙の長さの近くにとらない賢明な長さで計算したかったのです。
これをコーディングする最も効率的な方法に関する提案はありますか?
編集: 1000 のシーケンスに対してこれを行う必要はありません。これを行う最も効率的な方法を理解するのに役立つかもしれない、私が気付いていないアイデア、リソース、関数などに興味があっただけです。