2

Genbank からミオグロビン DNA 配列をダウンロードするためquery()にパッケージの機能を使用しています。seqinr例えば:

query("myoglobins","K=myoglobin AND SP=Turdus merula")

残念ながら、私が探している多くの種については、配列がまったく得られません (または、この種については、非常に短いものだけです)。ウェブサイトで手動で検索すると配列が見つかります. これは、キーワードに「ミオグロビン」のみを検索するためです。多くの場合、そこにはエントリがありません。多くの場合、タンパク質の種類は名前 (Genbank の「定義」) でのみ指定されますが、これを検索する方法がわかりません。のヘルプページにquery()は、詳細なオプションが提供されていないようです.「K =」を使用しない「一般的な検索」は機能せず、グーグルで検索しても何も見つかりませんでした.

リンク、説明、ヘルプをいただければ幸いです。ありがとうございました!:)

4

1 に答える 1

2

第 5 章でクエリ言語について詳しく説明している seqinr パッケージの完全なマニュアルがあります ( http://seqinr.r-forge.r-project.org/seqinr_2_0-1.pdfで入手可能)。同様のクエリを実行しようとしましたが、多くの遺伝子/CD の説明が空白であるため、k= オプションを使用して検索しても表示されません。1 つの代替方法として、生物のみを検索し、個々の注釈の遺伝子名を照合してアクセッション番号を抽出し、それを使用してデータベースに配列を再クエリすることができます。

これにより、最初の遺伝子の注釈が引き出されます。

choosebank("emblTP")
 query("ACexample", "sp=Turdus merula")
 getName(ACexample$req[[1]])
 annotations <- getAnnot(ACexample$req[[1]])
 cat(annotations, sep = "\n")

これは問題に取り組むにはかなり時間がかかる方法だと思いますが、注釈を直接検索する効率的な方法はないようです。あなたが思いつく可能性のある解決策に興味があります。

于 2014-01-08T17:18:56.807 に答える