問題タブ [bioperl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 複数レコードの GenBank ファイルの解析
入力ファイル ( http://biopython.org/DIST/docs/tutorial/examples/ls_orchid.gbk )内のすべてのレコードのシーケンス (ID を含む) を出力する次のコードを取得するのを手伝ってくれる人がいれば幸いです。:
次のように、純粋なシーケンス (できればヘッダー付き) で構成される出力を見たいと思います。
ありがとうございました
multidimensional-array - Bioperl push $seq->id を配列に
私は Perl と Bioperl にかなり慣れていません。同一のシーケンスのインスタンスを識別するスクリプトを作成しようとしています。これを実現するために、私は 2 つの infiles を使用するスクリプトを考えています。1 つ目は fasta 形式の複数のアラインメントで、2 つ目は fasta id を他の関連情報にリンクするアクセサリ ファイルです。私のアプローチは、Bio::SeqIO を使用して複数のアラインメントを読み取り、シーケンスがキーで ID が値であるハッシュにファイルの内容を配置することです。シーケンス共有の場合は ID の配列が値です。 .
私はそれが次のように見えるべきだと思います:
"AATTTGTTGTTGTACC" => ('Seq1', 'Seq13'),
"TTTCTCTTTCCCAAAG" => 'Seq2',
現時点では、シーケンス共有の場合に 2 番目の ID を配列にプッシュしようとしたときにエラーが発生したため、スタックしていると思います (つまり、上記の例では「Seq13」)。
これが、私が取り組んでいるテストの複数の配置です。
そして、これまでに書いたコードの下に:
そして、ここで私がいくつかの助けをいただければ幸いです
1) よくわからないエラーが表示されますが、プッシュ ステートメントに関連していると思われます --> ht_sharing で "strict refs" が使用されている間、文字列 ("Seq1") を ARRAY ref として使用できません。 pl 24 行目、3 行目。
2)ifループの外側のprintステートメントがアクティブな場合、私が信じているようにIDを出力します(つまり、Seq1)が、ifループ内のprintステートメントでは、同じ呼び出し$ seq-> idが代わりに参照を生成します(つまり、Bio ::Seq=HASH(0x19e7210)->id)。どうしてこれなの?$seq->id を印刷すると、同じ while ループ内で異なる出力が得られる理由がわかりません。
誰かが明確化を提供できれば本当に感謝しています。もちろん、ベストプラクティスや問題にアプローチするためのより良い方法について、このコメントにまだ慣れていない人も素晴らしいです。
乾杯、アナ
regex - DNA配列に特定のパターンがある場合、コーディングアミノ酸を取得します
DNA配列に特定のパターンがある場合、コーディングアミノ酸を検索したいと考えています。たとえば、パターンは次のようになります。ATAGTA。したがって、次の場合:
入力ファイル:
理想的な出力は、各アミノ酸の回数がパターンによってコード化された表です。ここで、sequence1 ではパターンは 1 つのアミノ酸のみをコードしますが、sequence2 では 2 つをコードします。このツールを機能させて、数千のシーケンスに拡張したいと考えています。私はこれをどのように行うかを考えてきましたが、パターンとは異なるすべてのヌクレオチドを置き換え、残っているものを翻訳し、コード化されたアミノ酸の要約を取得することしか考えていませんでした.
このタスクが既に利用可能なツールで実行できるかどうか教えてください。
ご協力いただきありがとうございます。万歳、ベルナルド
編集(私の投稿で発生した混乱のため):
元の投稿と sequence1 と sequence2 も忘れてください。
こんにちは、混乱させて申し訳ありません。入力 fasta ファイルは、「FeatureExtract」ツール ( http://www.cbs.dtu.dk/services/FeatureExtract/download.php ) を使用して GenBank ファイルから派生した *.ffn ファイルであるため、それらが既に含まれていることが想像できます。フレーム (+1) であり、+1 とは異なるフレームでコード化されたアミノ酸を取得する必要はありません。
次の配列がコードしているアミノ酸を知りたい:
取得したいコーディング アミノ酸の固有の文字列は、3 つの AG、GA、CT、または TC の繰り返し、つまりそれぞれ (AG)3、(GA)3、(CT)3、および (TC)3 です。プログラムが 4 つ以上の繰り返しのコーディング アミノ酸を取得することを望んでいません。
ありがとう、ベルナルド
perl - Perl で Bio::seq が機能しない
CPAN をインストールし、次に Bioperl を正常にインストールしました。Bio perl フォルダが見つかりません/usr/bin
ただし、ファイルはhome/.cpan/build/BioPerl-1.61/Bio/
Bio::SeqIO を使用できませんKomodo
IDE: Komodo Edit 8
OS: Ubuntu 12.04
Perl -v: 5.14
どのように進めればよいですか?
perl - Bio Perl:ペアエンドデータを分割するコード?
私はバイオインフォマティクスの初心者で、ペアエンドの MiSeq データ (現在は 1 つの fastq ファイル) を 2 つのファイルに分割する小さな Bio Perl コードに取り組んでおり、各ファイルにはペアの一方の端が含まれています。ペアエンドリードの異なるエンドは、fastq ヘッダーのスペースの後の1または2で区別できます。このファイルは、コマンド ラインで「head」を使用する例のように、典型的な fastq 形式に従います。
一致を使用してヘッダーの 1 または 2 をターゲットにしようとするコードを作成しました。私は Bio::SeqIO を使用していますが、perl は fastq 形式を認識していないようで、このエラーが発生し続けます:
誰かが私のエラーを見つけて修正するのを手伝ってくれますか? BioPerl Web サイトから入手できる情報は、Bio::SeqIO が fastq 形式を認識できる必要があることを示しています。
ここに私が書いたコードがあります:
私の初心者の知識に助けてくれてありがとう。
〜アル
質問の更新:
行のコンマ エラーを修正しましたnew
が、コードを実行すると次のエラーが発生します。
私が行ったすべての読み取りは、BioPerl 自体の FASTQ パーサーにいくつかの問題があることを示しているようです。私は初心者であり、プログラミングのスキルを向上させようとしているので (私は完全に独学です)、このコードを機能させることを望んでいました。これは遅く、おそらく大きな FASTQ ファイルを操作するための最良の方法ではないというコメントに同意します。
+ 記述子に関しては、私のファイルを他のソフトウェア プログラム (例: CLC) で使用できるようにするために必要ですか、それとも FASTQ でその行を削除することで問題を解決できますか? + には、読み取りに関する品質情報は実際には含まれていませんね。
入力していただきありがとうございます。
bioperl - バイオパール。Bio::GFFファイルによるグラフィックス
次のようなものを取得する必要があります。
ただし、続行する方法がわかりません...今、私はこれを持っています:
つまり... タグの付け方や対応するトランスクリプト、CDS などがわからないのです。
現在の私のコードは次のとおりです。
私もCPAN情報を読みましたが、手がかりはありません... NCBIファイルには多くの情報がありますが、GFFには何もありません...
私のデータ:
どんな助けでも大歓迎です。
perl - GenBank ファイルの解析
基本的に、GenBank ファイルは、以下に示す 2 つのように、遺伝子エントリ (「遺伝子」とそれに続く対応する「CDS」エントリ (遺伝子ごとに 1 つだけ) で発表されます。タブ区切りで locus_tag と製品を取得したいと思います。 2 カラム ファイル. 'gene' と 'CDS' は常に前後にスペースがあります. 既に利用可能なツールを使用してこのタスクを簡単に実行できる場合は、お知らせください.
入力ファイル:
望ましい出力 (タブ区切りの 2 つの列ファイル内の locus_tag と製品):
実際、この出力を持つことは理想的で、遺伝子ごとに 1 行です (1 つの遺伝子のみを示しています)。