問題タブ [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - biopython を使用した Fasta ファイル記述の解析
長い説明を含む fasta ファイル (最初のシーケンスは後述) があります。特定の説明フィールドを選択する必要があります。次のコードを使用したとき; 説明全体が文字列になります。
説明フィールドを (biopython ライブラリを使用して) 配列に取得し、説明を文字列に取り込んで文字列を吐き出さずに特定のフィールドを選択する簡単な方法はありますか?
コード出力
fasta ファイルのシーケンスの 1 つ。
python - ジェネレーターを使用してfastaファイルを解析する(python)
大きなfastaファイルを解析しようとしていますが、メモリ不足エラーが発生しています。データ処理を改善するためのいくつかの提案をいただければ幸いです。現在、プログラムは名前を正しく出力しますが、ファイルを部分的に介してMemoryErrorが発生します
これがジェネレーターです
これが発信者のスタブです。この部分が機能した後、さらに追加されます
fasta形式に慣れていない人のためにここに例があります
各エントリは、名前などを示す ">"で始まり、次のN行はデータです。先頭に「>」が付いている次の行以外に、データの終了は定義されていません。
r - FASTA エントリを反復処理し、重複の名前を変更します
多数のエントリを含む FASTA ファイルがあります。すべての DNA 配列は異なりますが、一部の FASTA 名は同一です。名前のコピーが複数ある場合は、一意の名前になるように番号を追加したいと思います。例えば:
次のようになります。
ありがとう。
アップデート。とにかくRでこれを使用することを計画していたので、fastaシーケンスをRにインポートし、それをデータフレームdf. 次に、次の行を使用して、必要に応じて名前を変更できます。
この投稿に触発されたコード
wolfram-mathematica - DNA配列のカオスゲーム
このアドレスに投稿された DNA シーケンスのカオス ゲームを作成するための Mathematica コードを試しました: http://facstaff.unca.edu/mcmcclur/blog/GeneCGR.html
これは次のようなものです:
私が持っている fasta シーケンスは AACCTTTGATCAAA のような文字のシーケンスであり、生成されるグラフは次のようになります。
コードは小さなシーケンスでは問題なく動作しますが、たとえば約 40Mb の染色体など、巨大なシーケンスを配置したい場合、プログラムは多くの時間を要し、黒い四角が表示されるだけなので分析できません。前述のコードを改善して、表示される正方形が大きくなるようにすることはできますか?ところで、正方形は正方形単位のみである必要があります。事前にご協力いただきありがとうございます
parsing - ファイルの並列解析
fastaファイルを並列に解析する方法を考えています。fasta-formatの例を知らない人のために:
したがって、「>」で始まる行は、識別子に続くシーケンスの識別子を含むヘッダー行です。
ファイル全体をメモリにロードすると思いますが、この後、これらのデータを処理する方法を見つけるのに問題があります。
問題は次のとおりです。スレッドはこの方法でシーケンスを切断する可能性があるため、任意の位置から開始することはできません。
行が相互に依存しているときに、誰かがファイルを並行して解析した経験はありますか?どんなアイデアでも大歓迎です。
bioinformatics - FASTAアルゴリズムの説明
データベース内のクエリシーケンスの類似シーケンスを検索する際のFASTAアルゴリズムの基本的な手順を理解しようとしています。アルゴリズムの手順は次のとおりです。
- IとJの間の一般的なk-wordを特定する
- k語の一致で対角線をスコアリングし、10個の最良の対角線を特定します
- 置換スコアマトリックスを使用して初期領域を再スコアリングします
- ギャップを使用して初期領域を結合し、ギャップにペナルティを課します
- 動的計画法を実行して、最終的な配置を見つけます
PAM250スコアマトリックスを使用する際の3番目と4番目のステップ、および「ギャップを使用して参加する」方法と混同しています。
誰かが私のためにこれらの2つのステップを「できるだけ具体的に」説明できますか。ありがとう
c - ファイルのクラッシュからの読み取り中にreallocを使用してバッファを拡張する
fastaファイルを読み取る必要のあるコードを書いています、したがって、私のコードの一部(以下に含まれています)はfastaパーサーです。単一のシーケンスはfasta形式で複数の行にまたがることができるため、ファイルから読み取られた複数の連続する行を1つの文字列に連結する必要があります。これを行うには、すべての行を読み取った後に文字列バッファを再割り当てして、シーケンスの現在の長さに読み込んだ行の長さを加えたものにします。空白の削除など、他の処理も行います。最初のシーケンスですが、fastaファイルには複数のシーケンスを含めることができます。同様に、「char *」である2つの文字列(タイトルと実際のシーケンス)を持つ構造体の動的配列があります。繰り返しますが、新しいタイトル('>'で始まる行で紹介されます)に遭遇すると、シーケンスの数を増やし、シーケンスリストバッファーを再割り当てします。2番目のシーケンスにスペースを割り当てる際のreallocsegfaults
私の一生の間、私には理由がわかりません。私はそれをgdbで実行しましたが、すべてが機能しているようです(つまり、すべてが初期化され、値は正常に見えます)...コードは次のとおりです。
r - Rで複数のFASTAファイルから読み取る方法は?
次の問題があります。各ファイル内に千の配列を持つ 10 個の異なる FASTA ファイルがあります。各 fasta ファイルからすべてのシーケンスを読み取り、(貼り付けて) すべてのシーケンスを含む 1 つの大きなファイルを作成したいと思います。
私の質問は次のとおりです。異なるファイルから同時に読み取るにはどうすればよいですか?
私は試した:
その後
しかし、それは正しく動作しません。コマンド read.fasta も試しましたが、奇妙な出力が得られます(すべてのシーケンスではありません)
大変お世話になりました。
ファビオ
PS。R を使い始めたのはちょうど 1 週間前です...ですから、ばかげた質問であっても、しばらくお待ちください!
python - Python で FASTA から Blast データベースを作成する
これどうやってするの?私はBiopythonを使用しており、すでにマニュアルを見ました。もちろん、スタンドアロンの NCBI BLAST+ で「makeblastdb」を使用して FASTA から blastdb を作成することもできますが、すべてのプロセスを 1 つのプログラムで実行したいと考えています。
2つの解決策が考えられるようです。
- このジョブを実行する関数を見つけます。
私はこれを見つけることができません。私は一日中過ごしました。
- Python で「makeblastdb」を実行します。
Python シェルで os.system("C:\blast-2.2.25+\bin\makeblastdb.exe") を入力しましたが、パラメーターを指定できませんでした。
python - FASTAファイルからPythonのリストに複数のシーケンスを追加する
複数のシーケンスでファイルを整理しようとしています。そうすることで、名前をリストに追加し、シーケンスを名前リストと並行する別のリストに追加しようとしています。リストに名前を追加する方法はわかりましたが、それに続くシーケンスを別のリストに追加する方法がわかりません。シーケンスの行を空の文字列に追加しようとしましたが、すべてのシーケンスのすべての行を1つの文字列に追加しました。
すべての名前は「>」で始まります
シーケンスを文字列のセットとしてリストに追加するにはどうすればよいですか?
入力ファイルは次のようになります