問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Emsembl FASTA から改行を削除できません
Ensembl FASTA ファイルからタンパク質モチーフを見つけようとしています。シーケンス ID やシーケンス自体の取得など、スクリプトの大部分は完了しましたが、おかしな結果が返ってきました。
何が起こっているかというと、モチーフがデータの 1 行の終わりと次の行の先頭にある場合、データ内の改行を含むモチーフが返されます。データを丸呑みするこの方法は、以前はうまく機能していました。
サンプル結果:
これが問題です。モチーフは一致しますが、前半の改行を返し、後半も同じ行に出力します (これは、より大きな問題の症状です - 改行を取り除く!)
@seq =~ s/\r//g
または `s/\n//gなどのさまざまな方法を、スクリプト内のさまざまな場所で試しました。
python - 2 つの非常に大きな fasta ファイルで同じ名前のシーケンスを見つけて、それらをギャップで結合するにはどうすればよいですか?
非常に大きな fasta ファイルが 2 つあり、どちらも約 2GB です。いくつかのシーケンスが同じ名前を共有しているため、次のようになります。
R1.fasta で:
">ABC001 ACTGTGTCGTG
">ABC003 ACTGTGTCGTG
">ABC005 ACTGTGTCGTG
">ABC010 ACTGTGTCGTG
そしてR2.fastaで
">ABC002 ACTGTGTCGTG
">ABC003 ACTGTGTCGTG
">ABC005 ACTGTGTCGTG
">ABC009 ACTGTGTCGTG
2 つのファイル間で共有されているシーケンスを見つけて、新しい fasta ファイルに書き込み、2 つのシーケンスをギャップで結合できるようにしたいので、新しいファイルは次のようになります。
">ABC003 ACTGTGTCGTG-----ACTGTGTCGTG
">ABC005 ACTGTGTCGTG-----ACTGTGTCGTG
このジョブを実行するための Python スクリプトを作成しましたが、実行速度が非常に遅くなりました。これを行うためのより速い方法があるかどうか疑問に思います。ありがとう!コードは次のようになります。
perl - fasta: n 長後のシーケンスを削除します
さまざまな長さの各ファイルに数千の seq を含む複数の fasta ファイルがあります。各配列の最初の 200 (n) 塩基のみを保持したいと考えています。Perlでこれを行うにはどうすればよいですか?
python - Pythonを使用してファイル内に複数の改行文字を挿入するにはどうすればよいですか?
改行文字を含まない fasta ファイルがあります。ファイルは次のようになります。
このファイルを読み取り、すべてのシーケンス ID とシーケンス自体の最後に改行文字を挿入する Python プログラムを作成しようとしていたでしょう。出力が次のようになることを願っています。
これまでのところ、私はこれを持っています:
エラー メッセージはありません (構文は「正しい」) が、必要な特定の出力が生成されません。どんな提案でも大歓迎です。
python - fasta シーケンス ファイルを解析して、Python でタイトルとシーケンスを取得する
Python を使用して fasta ファイルを解析するための汎用パーサーを作成する必要があります。
形式は次のようになります。
各タイトルとシーケンスを個別に取得し、作成した MySQL データベースに値を挿入する必要があります。
など... これらの値を MySQL テーブルに挿入します。
私の解析の出力は次のようになります。
これまでのところ、次のような非常に基本的なスクリプトを作成しました。
最初のシーケンスとタイトルのみを取得しています。
私は初心者で、専門家の助けが必要です。
string - 別のファイルの情報を条件として、あるファイルから行と部分文字列を抽出する
1.blast
このような座標情報を含むファイルがあります
1.fasta
このようなシーケンス情報を含むファイル
私は今、最初の列から取得し1.blast
、それらのシーケンス ID (=最初の列) とシーケンスを抽出し、次にシーケンス自体からファイル間の位置とファイルからの$1
位置を除くすべてを抽出するスクリプトを検索しています。つまり、最初の 2 つの一致から出力が$7
$8
1.fasta
>1
( の最初の 3 つのエントリはこの順序ではないことに注意してください)
ID は連続しています。つまり、必要な情報を次のように抽出できます。
これにより、最初の列に正しいシーケンス識別子行、2 番目の列に正しいシーケンス行 (= ID 行の 1 つ後)、および除外する必要がある 2 つの座標を含むマトリックスが得られます。1.fasta
したがって、基本的には、要素が抽出されるすべての必要な情報を含むマトリックス
残念ながら、私はスクリプト作成の経験があまりないため、適切なsed
コマンドなどで値を入力する方法がわかりません。次のような特定の行を取得できます。
そして、例えば経由で削除したい文字列
しかし、私の問題は、最初のawk
呼び出しからの情報を他のコマンドにパイプして、正しい行を抽出し、シーケンス行から指定された座標を削除する方法です。したがって、substr
正しいコマンドではありません。特定の文字列からこれら 2 つの位置の間のすべてを削除するコマンドが必要remstr(string,start,stop)
ですが、独自のスクリプトで実行できると思います。特に正しい配管は、ここで私にとって問題です。
python - Python 2.7.3 での無効な構文エラーに関する問題
スクリプト (下記参照) を実行して fasta ファイルを読み込み、タクソノミー ファイルを出力しようとしています (「>」文字を含まないシーケンス ヘッダーのみを出力します) が、解決できない構文エラーが発生し続けます。 . その結果、スクリプトは cleanseqs.tax ファイルを作成しますが、ファイルは空白です。誰でも助けてもらえますか?
ありがとうございました!
python - ファイル内の複数の文字列に複数の変更を加えて新しいファイルに出力する方法
私はpythongプログラミングが初めてで、特定のソフトウェアで使用するために解析したいfastaファイルを持っています。ファイルには次の 2 行が含まれます: 1) スペースで区切られた配列識別子と分類法。分類法の最後の種名にもスペースが含まれる場合があります。2) DNA 配列 (以下の例を参照):
多くの苦労と助けを借りて、fasta ファイルをシーケンス ID と分類のみを示す分類ファイルに解析することができました。
ただし、私が使用するソフトウェアでは、分類法ファイルを特別な方法でフォーマットする必要があります。分類法ファイルの内容は、1) fasta ファイルから「>」を削除する必要があります。2) 識別子と分類法を各シーケンス ヘッダーからタブで区切ります (つまり、文字列内の最初のスペースを置き換えます)。タブで)、3) 分類文字列内のすべてのスペースを「_」に置き換え、分類をセミコロンで終了します (以下の例を参照)。
私は自分の作業スクリプトをいじってそうしようとしています:
それを次のように変更します。
しかし、これはまったく機能しません。どうすればこれを行うことができるか知っている人はいますか?
助けてくれて本当にありがとうございます!
string - 一致する文字列を持つ 2 つのファイルから 2 行を連結する
私はまだUnixに慣れていませんが、それを学びたいと思っています.2つのファイルがあり、いくつかの行には一致する部分文字列があります.これらの行を1行に連結し、他の行はそのままにしておきたい. 以下はその例です..
ファイル 1 (fasta ファイル):
ファイル 2:
望ましい出力:
そのためにawkとperlを使用しようとしましたが、それらを1つのファイルにまとめることができませんでした..
よろしくお願いします、M