問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - FASTA シーケンスで逆の繰り返しパターンを見つける方法は?
私の長いシーケンスが次のようになっているとします。
この長いシーケンスの 2 つのイタリック体のサブシーケンス (ここでは 2 つの星の内側) は、まとめて逆反復パターンと呼ばれます。これら 2 つのサブシーケンスの A、T、G、C などの 4 文字の長さと組み合わせはさまざまです。しかし、これら 2 つのサブシーケンスの間には関係があります。最初のサブシーケンスを考慮すると、その相補サブシーケンスは ACTGGA であり (A は T と結合し、G は C と結合します)、この相補サブシーケンスを反転すると (つまり、最後の文字が最初に来る)、2 番目のサブシーケンスと一致することに注意してください。
このようなパターンは FASTA シーケンス (1000 万の ATGC 文字を含む) に多数存在し、そのようなパターンとその開始位置と終了位置を見つけたいと考えています。
arrays - ハッシュ値にアクセスできません
FASTAファイルの解析中にハッシュの配列を作成するプログラムがあります。これが私のコードです
私の問題は、
print $ arrayOfHashes [0] {id};
が呼び出されると、次のようなエラーが発生します
fasta_tie.pl行47、行6670の印刷での初期化されていない値の使用。
上記のコードで、私が次のような行をコメントアウトしたことがわかります。
push(@arrayOfHashes、 "$ i");
ハッシュが機能することを確認したかったからです。また、データは目的の形式で正しく印刷されます。このように見えます
HLA:HLA00127:A * 74:01:2918
python - fasta形式のファイルでアミノ酸を数える方法は?
fastafrmatedファイルを解析するコードを見つけました。各シーケンスにA、T、Gなどがいくつあるかを数える必要があります。次に例を示します。
このシーケンスでは、次のようになります。
コードは非常に単純です。
しかし、どうすればそれらのアミノ酸を数えることができますか?私はBioPythonを使いたくありません、例えば、これを行う方法を知りたいcount
です...
java - Fasta ファイルをダウンロードし、テキスト ファイルに書き込みます
このコードを使用して、pdb Web サイトから fasta シーケンス ファイルをダウンロードしています。pdb id は文字列 protid です。
エラーは発生していませんが、書き込まれたファイルは 0 バイトです。同じサイトから別の形式の別のファイルをダウンロードしようとしましたが、問題はありませんでした。
python - リスト内の複数の要素に対して関数を繰り返す
私はこのコードを書きました
次のようなリストを生成します-
['TAAAACACCC', 'TCAATTCAAG', 'GGTTTTTGAG', 'CGAGCTTTTT', 'ACTCAAAGAA', 'TCCAAGATAG', 'CGTTTAAAAA', 'TTTAGGGGTG', 'TTAGGCTCAG', 'CATAGAGTTT']
次のステップは、リストの各要素での文字GC
(または可能性があります)の出現を読み取ることです。CG
出力ファイルが次のようになるようにリストをループする方法はありますか:
ファイルが非常に大きく、セグメントの数(のようなリストの個々の要素'TAAGATATA'
)が膨大になるため、セグメントの数(1、2、3 ...)を取得する方法がわかりません出力ファイルで。また、私はPython(およびプログラミング)が初めてなので、関数をうまく使用するのがあまり得意ではありません。
java - JAVA でファイルから特定のデータを抽出する
これはテキストファイルに保存されたデータです。間でデータを厳密に抽出するにはどうすればよいですか
いつだけ
は私たちに知られています。
また、この例では、取得するデータは 1 行だけですが、何行にも及ぶ可能性があります。これまでのところ、ファイルの内容全体を文字列変数に書き込んで部分文字列を使用しようとしましたが、終了インデックスが不明であるため、そのロジックには欠陥があるようです。助けてください
java.io.* をインポートします。public class ReadingChainSpecificFastaSequence {
python - molfile を fasta に変換する
私はバイオインフォマティクスプロジェクトに取り組んでいます。
Pythonを使ってMDLファイル(molfile - .mol)をFASTAファイルに変換したいです。
どうすれば同じことができるか教えてもらえますか?
mol ファイルの構造 : http://en.wikipedia.org/wiki/Chemical_table_file#Molfile
fasta ファイルの構造 : http://en.wikipedia.org/wiki/FASTA_format
python - 特定の文字までの新しい行を削除する正規表現
次の形式のファイルに一連の文字列があります。
>
次の文字の間の文字の下にある改行文字を削除する正規表現パターンを見つけようとしています>
。したがって、最終結果は次のようになります。
これを行うための正規表現パターンを考え出す方法を誰かが知っていますか?
補足:この形式は、計算科学ではFASTA形式として一般的です。
ありがとう!
python - 特定の要素で区切られたファイルから行をコンパイルします。パイソン
ファイル:
この形式のファイルを読み取る関数を作成しています。この形式には、'>'+名前で区切られた複数のファイルが埋め込まれています (例: '>1','>2')
「>」行に挟まれたテキスト行を取得して、セクションごとに1つの文字列にコンパイルしようとしています
これは次のようになります
else: ステートメントで何をすべきかわからない次の「>」を見つけて、それらを seq_list というリストに追加します
どんな助けでも大歓迎です