“fasta”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

64 参照

replace - フレーズ「random」を含むすべてのシーケンスを削除します

これは私の入力がどのように見えるかです：

「random」という語句を含むすべてのシーケンスを削除したいと考えています。シーケンスは常に ">" で始まり、別のシーケンスが始まると終了します。

この場合、3 つのファイルを取得したいと思います。

a.txt

c.txt

d.txt

今のところ、どうにかして sed に自分のやりたいことを強制することはできません。私はこれから始めました：

何が機能していません。どうもありがとうございました。

2013-02-19T08:52:13.570

0 投票する

2 に答える

57 参照

regex - マニュアルの一節の解釈

いくつかのバイオインフォマティクスソフトウェア（TE Displayer）を実行しようとしていますが、機能していません。問題は、ソフトウェアがFASTAヘッダーをどのように認識するかにあるのではないかと思います。ドキュメントから、これは言われています。

ヘッダー行のシーケンス識別子は、「単語文字（1-10）の後に数字（2-9）」を意味する「\ w（1,10）\ d（2,9）」のパターンをとるので、避けるようにしてくださいヘッダー行の非識別子フレーズ（「Build04」など）。たとえば、ヘッダー行 "> OrganismX Accession AC000282、build0.4"は問題ありませんが、"> OrganismX Contig WX000282、Build04"は問題ありません。したがって、「Chromosome11」が識別子として認識されるため、「OryzasativaChromosome11」も問題ありません。

「\w（1,10）\ d（2,9）」の正確な使用法を誰かが説明できますか？合計で12文字までの単語として理解できますが、2桁で終わる必要があります。したがって、Build04が正常ではないのに、Build0.4がどのように正常であるかがわかりません。

乾杯！

regex bioinformatics fasta

2013-02-27T19:50:15.663

0 投票する

2 に答える

3009 参照

unix - Unix コマンドラインツールを使用した FASTA ヘッダーの変更

私は再びテキストの変更に行き詰まっています。次のような大きなテキストファイルを変更したい:

に

sed '/^>/s/[^ ]* />/'最初の部分 ( >hg19_ct_UserTrack_3545_690)を削除するを使用してきましたが、 range=. andのさまざまな組み合わせを試しましたが、喜びは//ありません。grep

ありがとう

unix sed awk grep fasta

2013-03-01T10:39:54.900

0 投票する

5 に答える

1302 参照

python - Pythonを使用してfastaファイルからピリオドを削除します

私はpython（2.7を使用）が初めてで、整列されたシーケンスのfastaファイルを取得して、ピリオド（。）とダッシュ（-）を削除しようとしています。Pythonが各行を通過し、ピリオドとダッシュを何も置き換えないようにループを記述しようとしています。これは私が持っているスクリプトです（実行すると、ピリオドとダッシュは削除されますが、スペースは残ります）：

どんな提案でも大歓迎です！ジェン

python fasta

2013-03-01T20:13:16.653

0 投票する

3 に答える

120 参照

perl - 一致するファイルを解析し、Perl で一致した文字列の前に文字列を出力するにはどうすればよいですか?

GBK ファイルを解析しようとしています。基本的には、パターンにマッチした遺伝子のローカスタグとプロダクトネームを返す必要があります。したがって、すべての予測遺伝子産物を検索したいモチーフの場合、「予測」という検索語は次のように返されます。

を返すことはできました/productが、「後方」を解析してを取得する方法がわかりません/locus_tag。

これが私がこれまでに持っているものです：

> example.txt

perl parsing fasta

2013-03-04T20:32:40.410

0 投票する

1 に答える

626 参照

regex - AWK: 複数のファイルに行を書き込む

awk を使用して FASTA ファイルからシーケンスを抽出しようとしています。

たとえば、ファイルは次のようになり、703 シーケンスが含まれます。それぞれを個別のファイルに抽出したいと思います。

私はこのawkスクリプトを使用しています：

...これは機能しますが、最初は 16 に対してのみで、エラーが表示されます。

regex awk substring fasta

2013-03-21T17:48:38.993

0 投票する

1 に答える

2710 参照

regex - ヘッダー行が別のファイルのリストと一致するファイルの fasta シーケンスを抽出する方法は?

私はPerlの初心者です。別のファイルの行と一致する 1 つのファイルから fasta シーケンスを抽出しようとしています。2 つのサンプルファイルは次のとおりです。

ファイル1.fasta:

>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA

>gene_69|111_nt|+|75846|75956 ATGCCGTTGCCGTCGCGCATCGCGGCGGCCGTGCGCGGCGCGCATGCATACGCCGGCACGGCCGATGCGCGCGCGACGCGCAAACTGCACGCGGCGCGGGATTTGTGTTGA

>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA

>gene_90|141_nt|-|99016|99156
TTGGAAGGGCGCTTTCCGCGTGCGAGTCGTCTGACGCAGCGTTGCACGGTCTGGTCGAATCGCGAGCTTCATCGCTGGATGGCCGATCCGTTGAACTATCGCGCTGTCGACGCGGCGAACCAGACGACGGAGGGCGCGTAA

File2.list:

前にある言葉、>gene_44|後ろにある言葉

ブラブラブラ、>gene_88|ブラブラブラブラブラ

私が期待する出力は次のとおりです。

>gene_44|105_nt|+|47540|47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCCATAACGTCTGA

>gene_88|177_nt|-|97993|98169
ATGCGCCAGCCGACGCACGCCCATTCCGGGCGAAACGTTCCCCTTATCCATTCGATCATCCGTGCCGCACTGCGCGAAGCGGCCACCGCCGACACGTACCAAACCGCGCTCGATGCGACCGGCGCGGCACTCGTCGCCATCGCGGCGCTCGTGCGCGCGGAGGTGCGGCATGGCTGA

どうすればそれを達成できますか？前もって感謝します！:)

regex perl extract fasta

2013-04-06T08:34:26.257

0 投票する

2 に答える

747 参照

perl - fasta ファイルのヘッダーを一致させ、新しい名前で命名する

このようなさまざまなヘッダーを持つfastaファイルがあります..

など..今、私は名前をこのようなものに変更したいと思います

など..それを行うためのperlスクリプトを作成しましたが、何も出力しません。私は何か間違ったことをしていますか？

また、fasta ヘッダー名を変更して新しいファイルに出力する以外に、各 fasta ヘッダーの下にシーケンスを含めるにはどうすればよいですか。前もって感謝します.... Upendra

perl header fasta

2013-04-19T07:32:17.103

問題タブ [fasta]

Reference