“bioperl”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

549 参照

perl - 複数レコードの GenBank ファイルの解析

入力ファイル ( http://biopython.org/DIST/docs/tutorial/examples/ls_orchid.gbk )内のすべてのレコードのシーケンス (ID を含む) を出力する次のコードを取得するのを手伝ってくれる人がいれば幸いです。:

次のように、純粋なシーケンス (できればヘッダー付き) で構成される出力を見たいと思います。

ありがとうございました

perl bioperl

2013-11-08T21:42:41.527

0 投票する

1 に答える

275 参照

multidimensional-array - Bioperl push $seq->id を配列に

私は Perl と Bioperl にかなり慣れていません。同一のシーケンスのインスタンスを識別するスクリプトを作成しようとしています。これを実現するために、私は 2 つの infiles を使用するスクリプトを考えています。1 つ目は fasta 形式の複数のアラインメントで、2 つ目は fasta id を他の関連情報にリンクするアクセサリファイルです。私のアプローチは、Bio::SeqIO を使用して複数のアラインメントを読み取り、シーケンスがキーで ID が値であるハッシュにファイルの内容を配置することです。シーケンス共有の場合は ID の配列が値です。 .

私はそれが次のように見えるべきだと思います：

"AATTTGTTGTTGTACC" => ('Seq1', 'Seq13'),

"TTTCTCTTTCCCAAAG" => 'Seq2',

現時点では、シーケンス共有の場合に 2 番目の ID を配列にプッシュしようとしたときにエラーが発生したため、スタックしていると思います (つまり、上記の例では「Seq13」)。

これが、私が取り組んでいるテストの複数の配置です。

そして、これまでに書いたコードの下に：

そして、ここで私がいくつかの助けをいただければ幸いです

1) よくわからないエラーが表示されますが、プッシュステートメントに関連していると思われます --> ht_sharing で "strict refs" が使用されている間、文字列 ("Seq1") を ARRAY ref として使用できません。 pl 24 行目、3 行目。

2）ifループの外側のprintステートメントがアクティブな場合、私が信じているようにIDを出力します（つまり、Seq1）が、ifループ内のprintステートメントでは、同じ呼び出し$ seq-> idが代わりに参照を生成します（つまり、Bio ::Seq=HASH(0x19e7210)->id)。どうしてこれなの？$seq->id を印刷すると、同じ while ループ内で異なる出力が得られる理由がわかりません。

誰かが明確化を提供できれば本当に感謝しています。もちろん、ベストプラクティスや問題にアプローチするためのより良い方法について、このコメントにまだ慣れていない人も素晴らしいです。

乾杯、アナ

multidimensional-array bioperl

2013-11-10T22:02:28.587

0 投票する

2 に答える

708 参照

regex - DNA配列に特定のパターンがある場合、コーディングアミノ酸を取得します

DNA配列に特定のパターンがある場合、コーディングアミノ酸を検索したいと考えています。たとえば、パターンは次のようになります。ATAGTA。したがって、次の場合：

入力ファイル：

理想的な出力は、各アミノ酸の回数がパターンによってコード化された表です。ここで、sequence1 ではパターンは 1 つのアミノ酸のみをコードしますが、sequence2 では 2 つをコードします。このツールを機能させて、数千のシーケンスに拡張したいと考えています。私はこれをどのように行うかを考えてきましたが、パターンとは異なるすべてのヌクレオチドを置き換え、残っているものを翻訳し、コード化されたアミノ酸の要約を取得することしか考えていませんでした.

このタスクが既に利用可能なツールで実行できるかどうか教えてください。

ご協力いただきありがとうございます。万歳、ベルナルド

編集（私の投稿で発生した混乱のため）：

元の投稿と sequence1 と sequence2 も忘れてください。

こんにちは、混乱させて申し訳ありません。入力 fasta ファイルは、「FeatureExtract」ツール ( http://www.cbs.dtu.dk/services/FeatureExtract/download.php ) を使用して GenBank ファイルから派生した *.ffn ファイルであるため、それらが既に含まれていることが想像できます。フレーム (+1) であり、+1 とは異なるフレームでコード化されたアミノ酸を取得する必要はありません。

次の配列がコードしているアミノ酸を知りたい:

取得したいコーディングアミノ酸の固有の文字列は、3 つの AG、GA、CT、または TC の繰り返し、つまりそれぞれ (AG)3、(GA)3、(CT)3、および (TC)3 です。プログラムが 4 つ以上の繰り返しのコーディングアミノ酸を取得することを望んでいません。

ありがとう、ベルナルド

regex perl bioinformatics biopython bioperl

2013-11-11T09:40:05.870

0 投票する

1 に答える

543 参照

perl - Perl で Bio::seq が機能しない

CPAN をインストールし、次に Bioperl を正常にインストールしました。Bio perl フォルダが見つかりません/usr/bin

ただし、ファイルはhome/.cpan/build/BioPerl-1.61/Bio/

Bio::SeqIO を使用できませんKomodo

IDE: Komodo Edit 8

OS: Ubuntu 12.04

Perl -v: 5.14

どのように進めればよいですか？

perl cpan bioperl

2013-11-27T20:42:45.053

0 投票する

3 に答える

1136 参照

perl - Bio Perl:ペアエンドデータを分割するコード?

私はバイオインフォマティクスの初心者で、ペアエンドの MiSeq データ (現在は 1 つの fastq ファイル) を 2 つのファイルに分割する小さな Bio Perl コードに取り組んでおり、各ファイルにはペアの一方の端が含まれています。ペアエンドリードの異なるエンドは、fastq ヘッダーのスペースの後の1または2で区別できます。このファイルは、コマンドラインで「head」を使用する例のように、典型的な fastq 形式に従います。

一致を使用してヘッダーの 1 または 2 をターゲットにしようとするコードを作成しました。私は Bio::SeqIO を使用していますが、perl は fastq 形式を認識していないようで、このエラーが発生し続けます:

誰かが私のエラーを見つけて修正するのを手伝ってくれますか? BioPerl Web サイトから入手できる情報は、Bio::SeqIO が fastq 形式を認識できる必要があることを示しています。

ここに私が書いたコードがあります：

私の初心者の知識に助けてくれてありがとう。

〜アル

質問の更新:

行のコンマエラーを修正しましたnewが、コードを実行すると次のエラーが発生します。

私が行ったすべての読み取りは、BioPerl 自体の FASTQ パーサーにいくつかの問題があることを示しているようです。私は初心者であり、プログラミングのスキルを向上させようとしているので (私は完全に独学です)、このコードを機能させることを望んでいました。これは遅く、おそらく大きな FASTQ ファイルを操作するための最良の方法ではないというコメントに同意します。

+ 記述子に関しては、私のファイルを他のソフトウェアプログラム (例: CLC) で使用できるようにするために必要ですか、それとも FASTQ でその行を削除することで問題を解決できますか? + には、読み取りに関する品質情報は実際には含まれていませんね。

入力していただきありがとうございます。

perl bioinformatics bioperl fastq

2013-12-04T17:02:28.457

0 投票する

3 に答える

432 参照

bioperl - バイオパール。Bio::GFFファイルによるグラフィックス

次のようなものを取得する必要があります。

ここに画像の説明を入力

ただし、続行する方法がわかりません...今、私はこれを持っています：

ここに画像の説明を入力

つまり... タグの付け方や対応するトランスクリプト、CDS などがわからないのです。

現在の私のコードは次のとおりです。

私もCPAN情報を読みましたが、手がかりはありません... NCBIファイルには多くの情報がありますが、GFFには何もありません...

私のデータ:

どんな助けでも大歓迎です。

bioperl

2014-01-18T20:28:49.960

0 投票する

1 に答える

786 参照

perl - GenBank ファイルの解析

基本的に、GenBank ファイルは、以下に示す 2 つのように、遺伝子エントリ (「遺伝子」とそれに続く対応する「CDS」エントリ (遺伝子ごとに 1 つだけ) で発表されます。タブ区切りで locus_tag と製品を取得したいと思います。 2 カラムファイル. 'gene' と 'CDS' は常に前後にスペースがあります. 既に利用可能なツールを使用してこのタスクを簡単に実行できる場合は、お知らせください.

入力ファイル：

望ましい出力 (タブ区切りの 2 つの列ファイル内の locus_tag と製品):

実際、この出力を持つことは理想的で、遺伝子ごとに 1 行です (1 つの遺伝子のみを示しています)。

perl awk biopython bioperl

2014-02-19T18:15:14.787

問題タブ [bioperl]

Reference