2

いくつかのバイオインフォマティクスソフトウェア(TE Displayer)を実行しようとしていますが、機能していません。問題は、ソフトウェアがFASTAヘッダーをどのように認識するかにあるのではないかと思います。ドキュメントから、これは言われています。

ヘッダー行のシーケンス識別子は、「単語文字(1-10)の後に数字(2-9)」を意味する「\ w(1,10)\ d(2,9)」のパターンをとるので、避けるようにしてくださいヘッダー行の非識別子フレーズ(「Build04」など)。たとえば、ヘッダー行 "> OrganismX Accession AC000282、build0.4"は問題ありませんが、"> OrganismX Contig WX000282、Build04"は問題ありません。したがって、「Chromosome11」が識別子として認識されるため、「OryzasativaChromosome11」も問題ありません。

「\w(1,10)\ d(2,9)」の正確な使用法を誰かが説明できますか?合計で12文字までの単語として理解できますが、2桁で終わる必要があります。したがって、Build04が正常ではないのに、Build0.4がどのように正常であるかがわかりません。

乾杯!

4

2 に答える 2

5

シーケンス識別子だけでパターンと一致する必要があるため、">OrganismX Accession AC000282, build0.4"では、AC000282ではなく、正規表現と一致する必要がありますBuild0.4

\w(1,10)\d(2,9)は、1〜10語の文字、つまり、のいずれかに一致しa-z A-Z 0-9 _、その後に2〜9桁の数字が続くことを意味します。

そのBuild04パターンと一致し、シーケンス識別子ではないため、避けることをお勧めします。 build0.4が含まれているため、そのパターンとは一致しません.。したがって、問題ありません。

于 2013-02-27T19:58:41.913 に答える
1

MikeMが言ったことを拡張するために-あなたはスクリプトにを識別させようとしていますAC000282。上記の正規表現は、その文字のシーケンスを識別します。シーケンス識別子\w(1,10)\d(2,9)は、「1〜10語の文字の後に2〜9桁の文字を検索します。正規表現は、 5語の文字(BUILD)の後に2桁の文字(04)があるため識別しますが、内としてはBuild04識別しません。使用されないことを正規表現に通知します。Build0.4.Build0.4

于 2013-02-27T20:08:01.757 に答える