問題タブ [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - GenBank形式ファイルのFASTA形式への変換
私は Java の初心者で、GenBank テキスト ファイルを FASTA 形式に変換できるプログラムを構築したいと考えています。基本的に 2 つのテキスト ボックスがあります。1 つは GenBank 形式のファイルをアップロードする場所、もう 1 つは変換された FASTA 形式のファイルを表示する場所です。
これは GenBank 形式のファイルです。
対応する FASTA 形式のファイルは次のとおりです。
GenBank ファイルをトリミングし、クリックしたボタンを使用して 2 番目のテキスト ボックスに表示する方法やコードに関するアドバイスを手伝ってくれる人はいますか。
Netbeans 6.9 を使用しています。
perl - genbank形式から配列を引き出す
このコードは正常に動作していましたが、今度は不平を言います。genbank 構造は変更されましたか?
r - Genbank クエリ (パッケージ seqinr): シーケンスの説明で検索
Genbank からミオグロビン DNA 配列をダウンロードするためquery()
にパッケージの機能を使用しています。seqinr
例えば:
残念ながら、私が探している多くの種については、配列がまったく得られません (または、この種については、非常に短いものだけです)。ウェブサイトで手動で検索すると配列が見つかります. これは、キーワードに「ミオグロビン」のみを検索するためです。多くの場合、そこにはエントリがありません。多くの場合、タンパク質の種類は名前 (Genbank の「定義」) でのみ指定されますが、これを検索する方法がわかりません。のヘルプページにquery()
は、詳細なオプションが提供されていないようです.「K =」を使用しない「一般的な検索」は機能せず、グーグルで検索しても何も見つかりませんでした.
リンク、説明、ヘルプをいただければ幸いです。ありがとうございました!:)
python - GenBank ファイルの解析: ローカス タグとプロダクトの取得
基本的に、GenBank ファイルは、以下に示す 2 つのように、遺伝子エントリ (「遺伝子」とそれに続く対応する「CDS」エントリ (遺伝子ごとに 1 つだけ) で発表されます。タブ区切りで locus_tag と製品を取得したいと思います。 2 列のファイル 'gene' と 'CDS' の前後には必ずスペースが入ります。
問題は、「product」の名前に「/」文字が含まれていることがあるため、このスクリプトと競合しているように見えることです。これは、私が理解できる限り、「/」をフィールドセパレーターとして使用して情報を配列?
このスクリプトを変更するか、別のスクリプトを作成して、これを解決したいと思います。
python - SeqIO:「ハンドルにレコードが見つかりません」
Python と BioPython を使い始めたばかりで、プログラミングの経験があまりありません。皆さんの助けがあれば幸いです。
genbank から CDS および/または rRNA 配列を抽出しようとしています。オープンリーディングフレームのみを取得することが重要です。そのため、シーケンス全体を取得するだけではありません. 以下のコードを実行すると、次のようなエラーが表示されます。
ハンドルにレコードが見つかりません
次のコード行の場合: record = SeqIO.read(handle, "genbank")
. この問題を修正する方法がわかりません。以下に使用しているコードを含めました。
また、これを行う簡単な方法や公開されたコードがあれば、教えていただければ幸いです。
ありがとう!
python - ゲノム配列のないGBKファイルを解析するBiopython
私は、GenBank ファイルと Biopython を使用して GBK ファイルのシーケンス部分から特定の遺伝子のシーケンスを取得するスクリプトを作成しました。これは私の同僚が仕事に使用しています。
新しいデータセットでいくつかの問題が発生し、ダウンロードされた GBK ファイルに配列が含まれていないことが判明しました (これは、NCBI の GenBank Web サイトからダウンロードすると簡単に発生する可能性があります)。を使用すると、エラーをスローする代わりに、Biopython は N の長いシーケンスを返しますrecord.seq[start:end]
。その問題を最初から見つけてスクリプトを停止し、エラー メッセージを表示する最も簡単な方法は何ですか?
smalltalk - ディスクからgenbankファイルを読み取ってfastaに変換するのを手伝ってください
biosmalltalk (Pharo 版) を使用して、GenBank 配列を同等の FASTA 形式に変換する方法を教えてください。ディスクから GenBank ファイルを読み取る方法は既にわかっています。ファイル xym | x:=時間ミリ秒クロック値。ファイル := BioFile on: (FileStream readOnlyFileNamed: BioObject testFilesDirectoryName asFileReference / 'AF165912.gbk')。m:=BioParser tokenizeMultiFasta: ファイルの内容。y:=時間ミリ秒ClockValue. トランスクリプトを開きます。転写クリア。Transcript show:m;cr. 今、私はそれに相当する FASTA を取得したいと考えています。
regex - 正規表現を使用して単一行文字列の文字長を変更する
60 塩基 (末尾に \n がある) の単一行の文字列で構成される genbank ファイルからシーケンスを抽出しました。perl を使用してシーケンスを変更し、bioperl ではなく正規表現を使用して各行に 120 塩基を出力する方法。元の形式:
私はそれらを60文字の長さの文字列にすることしかできませんでした。それらを120文字の長さにする方法をまだ見つけようとしています。
}
入力例:
これは、1 つの線ストリングごとに 60 塩基を持ちます。
更新 (まだ 120 塩基長の seq 行を提供していません):