問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
replace - フレーズ「random」を含むすべてのシーケンスを削除します
これは私の入力がどのように見えるかです:
「random」という語句を含むすべてのシーケンスを削除したいと考えています。シーケンスは常に ">" で始まり、別のシーケンスが始まると終了します。
この場合、3 つのファイルを取得したいと思います。
a.txt
c.txt
d.txt
今のところ、どうにかして sed に自分のやりたいことを強制することはできません。私はこれから始めました:
何が機能していません。どうもありがとうございました。
regex - マニュアルの一節の解釈
いくつかのバイオインフォマティクスソフトウェア(TE Displayer)を実行しようとしていますが、機能していません。問題は、ソフトウェアがFASTAヘッダーをどのように認識するかにあるのではないかと思います。ドキュメントから、これは言われています。
ヘッダー行のシーケンス識別子は、「単語文字(1-10)の後に数字(2-9)」を意味する「\ w(1,10)\ d(2,9)」のパターンをとるので、避けるようにしてくださいヘッダー行の非識別子フレーズ(「Build04」など)。たとえば、ヘッダー行 "> OrganismX Accession AC000282、build0.4"は問題ありませんが、"> OrganismX Contig WX000282、Build04"は問題ありません。したがって、「Chromosome11」が識別子として認識されるため、「OryzasativaChromosome11」も問題ありません。
「\w(1,10)\ d(2,9)」の正確な使用法を誰かが説明できますか?合計で12文字までの単語として理解できますが、2桁で終わる必要があります。したがって、Build04が正常ではないのに、Build0.4がどのように正常であるかがわかりません。
乾杯!
unix - Unix コマンド ライン ツールを使用した FASTA ヘッダーの変更
私は再びテキストの変更に行き詰まっています。次のような大きなテキスト ファイルを変更したい:
に
sed '/^>/s/[^ ]* />/'
最初の部分 ( >hg19_ct_UserTrack_3545_690
)を削除するを使用してきましたが、 range=
. andのさまざまな組み合わせを試しましたが、喜びは//
ありません。grep
ありがとう
python - Pythonを使用してfastaファイルからピリオドを削除します
私はpython(2.7を使用)が初めてで、整列されたシーケンスのfastaファイルを取得して、ピリオド(。)とダッシュ(-)を削除しようとしています。Pythonが各行を通過し、ピリオドとダッシュを何も置き換えないようにループを記述しようとしています。これは私が持っているスクリプトです(実行すると、ピリオドとダッシュは削除されますが、スペースは残ります):
どんな提案でも大歓迎です!ジェン
perl - 一致するファイルを解析し、Perl で一致した文字列の前に文字列を出力するにはどうすればよいですか?
GBK ファイルを解析しようとしています。基本的には、パターンにマッチした遺伝子のローカスタグとプロダクトネームを返す必要があります。したがって、すべての予測遺伝子産物を検索したいモチーフの場合、「予測」という検索語は次のように返されます。
を返すことはできました/product
が、「後方」を解析して を取得する方法がわかりません/locus_tag
。
これが私がこれまでに持っているものです:
> example.txt
regex - AWK: 複数のファイルに行を書き込む
awk を使用して FASTA ファイルからシーケンスを抽出しようとしています。
たとえば、ファイルは次のようになり、703 シーケンスが含まれます。それぞれを個別のファイルに抽出したいと思います。
私はこのawkスクリプトを使用しています:
...これは機能しますが、最初は 16 に対してのみで、エラーが表示されます。
regex - ヘッダー行が別のファイルのリストと一致するファイルの fasta シーケンスを抽出する方法は?
私はPerlの初心者です。別のファイルの行と一致する 1 つのファイルから fasta シーケンスを抽出しようとしています。2 つのサンプル ファイルは次のとおりです。
ファイル1.fasta:
>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA
>gene_69|111_nt|+|75846|75956 ATGCCGTTGCCGTCGCGCATCGCGGCGGCCGTGCGCGGCGCGCATGCATACGCCGGCACGGCCGATGCGCGCGCGACGCGCAAACTGCACGCGGCGCGGGATTTGTGTTGA
>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA>gene_90|141_nt|-|99016|99156
TTGGAAGGGCGCTTTCCGCGTGCGAGTCGTCTGACGCAGCGTTGCACGGTCTGGTCGAATCGCGAGCTTCATCGCTGGATGGCCGATCCGTTGAACTATCGCGCTGTCGACGCGGCGAACCAGACGACGGAGGGCGCGTAA
File2.list:
前にある言葉、>gene_44|後ろにある言葉
ブラブラブラ、>gene_88|ブラブラブラブラブラ
私が期待する出力は次のとおりです。
>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA
>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA
どうすればそれを達成できますか?前もって感謝します!:)
perl - fasta ファイルのヘッダーを一致させ、新しい名前で命名する
このようなさまざまなヘッダーを持つfastaファイルがあります..
など..今、私は名前をこのようなものに変更したいと思います
など..それを行うためのperlスクリプトを作成しましたが、何も出力しません。私は何か間違ったことをしていますか?
また、fasta ヘッダー名を変更して新しいファイルに出力する以外に、各 fasta ヘッダーの下にシーケンスを含めるにはどうすればよいですか。前もって感謝します.... Upendra