問題タブ [ncbi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1491 参照

blast - ローカル BLAST Swissprot データベース エラー

私のマシン (Mac) でスタンドアロンの ncbi-blast-2.2.28+ を実行しようとしていますが、SwissProt データベースで blastp を実行すると、次のエラー メッセージが表示されます。

ここで私がしたこと:

1) ncbi サーバーから「ncbi-blast-2.2.28+-universal-macosx.tar.gz」をダウンロードして解凍

2) フォルダーの bin コンテンツを $PATH ディレクトリ "/Users/me/bin" に移動します。

3) "/Users/me/bin" に "db" フォルダーと、次のパスを含む ".​​ncbirc" ファイルを作成しました。

4) SwissProt データベースをダウンロードし、「/Users/me/bin/db/」に次のファイルを取得しました。

次に、次のコマンドを使用して、任意の作業ディレクトリ (クエリ ファイルがある場所) から blastp を実行すると、次のようになります。

次のエラー メッセージが表示されます。

他のスレッドで読んだように、コマンドラインでデータベースが配置されているパス全体を言及し、ファイル名から .pal 拡張子を削除しようとしました。しかし、まだ機能しません。

誰かが私が間違ったことを見ることができますか?!!!!

0 投票する
2 に答える
1021 参照

python - Biopython Entrez を使用して fasta レコードからシーケンス要素にアクセスする

BioPython Entrez を使用してシーケンス レコードをプルダウンするために使用している refseq ID (keys_list) のリストがあります。返された fasta レコードのシーケンスだけにアクセスしたいのですが、そのためにレコードをファイルに書き込む必要はありません。

私は次のコードを試しています

これを実行すると、次のエラーが表示されます。

でレコード全体を返すとhandle.read()、fasta レコード全体を取得できますが、この段階では塩基配列のみにアクセスしたいだけです。

誰でもこの問題を解決できますか?

よろしくお願いします。

0 投票する
2 に答える
444 参照

php - PHPを使用して動的ページからコンテンツをコピーするには?

PHPを使用して、以下のページリンクに表示されている情報を取得することは可能ですか. ページに表示されるすべてのテキスト コンテンツを変数またはファイルにコピーしたいと考えています。

http://www.ncbi.nlm.nih.gov/nuccore/24655740?report=fasta&format=text

私もcURLを試しましたが、うまくいきませんでした。cURL は、私が知っている他のいくつかのサイトで機能しました。ただし、cURL を使用したソリューションがあったとしても、投稿はありません。cURL を使用できるさまざまな方法を試した可能性があります。

0 投票する
2 に答える
1353 参照

python - 複数生物のタンパク質配列のダウンロード

biopython を使用して、特定の機関によって配列決定された生物のリストのすべてのタンパク質をダウンロードしようとしています。各生物に関連付けられた生物名と BioProject があります。具体的には、いくつかの最近のゲノム配列で見つかったタンパク質を分析しようとしています。efetchで可能な限り簡単な方法で、タンパク質ファイルをまとめてダウンロードしたいと思います。関連する生物のすべてのタンパク質 FASTA シーケンスをダウンロードする私の最近の試みは次のとおりです。

各生物に関連するタンパク質はおよそ 3000 ~ 4500 あります。そのため、esearch を使用して各タンパク質を一度に 1 つずつ efetch しようとするのは現実的ではありません。さらに、すべてのタンパク質を含む各生物に対して 1 つの FASTA ファイルが必要です。

残念ながら、このコード行を実行すると、次のエラーが表示されます: urllib2.HTTPError: HTTP Error 400: Bad Request.

私が興味を持っているすべての生物について表示されます。Nucleotide データバンクでそれらのゲノム配列を見つけて、「タンパク質コード配列」をダウンロードすることはできません。

NCBI サーバーを過負荷にしない方法で、必要なこれらのタンパク質配列を取得するにはどうすればよいですか? 私は、NCBI の Web ブラウザーでできることを再現できることを望んでいました: タンパク質データベースを選択し、Bioproject 番号を検索し、見つかったすべてのタンパク質配列を単一の fasta ファイルに保存します ([送信先] ドロップダウンの下)。メニュー)

0 投票する
1 に答える
1081 参照

python - Ncbi タンパク質データベース、特定のバイオプロジェクトからタンパク質配列を取得する方法 (python スクリプト)

特定のバイオプロジェクトの NCBI データベースからコーディングタンパク質配列を取得しようとしています。これは、Web ブラウザーを使用して何らかの形で実現できます。たとえば、興味のある特定のバイオプロジェクトを見つけて、関連するタンパク質を「クリック」することができます: http://www.ncbi.nlm.nih.gov/genome/proteins/994?project_id=207383すべてを見ることができますBioProject "207383" および Genome "994" のタンパク質。Pythonを使用してそれらのタンパク質配列を自動的に取得したいと思います。

そのために、NCBI の「E-utilities」を使用しました。主に「elink.fcgi?」これにより、データベースの特定のUID(BioProject UIDとしましょう)からリンクされたデータベースのすべてのUID(「タンパク質」としましょう)を取得できます。ここに私の entrez URL リクエストがあります:
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=bioproject&linkname=bioproject_protein&id=207383
次に、タンパク質 UID のリストを取得します。 efetch.fcgi を使用した次のリクエストのために、これらが必要ですか? 「Eユーティリティ」。このリクエストにより、必要なものすべてを取得できます。

OK、すべてが素晴らしいので、すべて正常に動作しますが、「elink.fcgi?」から取得したタンパク質 UID の数は? 要求は、手動の Web ブラウザー ベースの検索で表示されるタンパク質の数と同じではありません。さらに悪いことに、これらの問題の原因を調べると、欠落している配列や高等分類群の配列が表示されます (これも BioProject とはまったく関係がありません)。

例を次に示します。この投稿の最初のリンクは、Python リクエストが 3957 タンパク質 UID を取得したときに、多くの 4014 シーケンスを表示します。

タクソノミー UID からリンクされたすべてのタンパク質 UID を取得するなど、他のアプローチをいくつか試しました。さまざまなバイオプロジェクトがあるため、これは通常、必要以上のシーケンスを提供します (また、異なる名前で同じ Fasta のダブルもいくつか提供します)。

これを行う方法はありますか?

0 投票する
1 に答える
843 参照

xml - entrez.efetch を使用して特定のタンパク質配列を取得する方法は?

Biopython のEntrez.fetch()関数を使用して、遺伝子 ID (GI) 番号を介して NCBI からタンパク質配列を取得しようとしています。

次に、次を使用してデータを読み取ります。

結果を印刷できますが、タンパク質配列だけを取得する方法がわかりません。

結果が表示されたら、手動でタンパク質に到達できます。または、II を使用して XML ツリーを確認します。

ただし、提出されたタンパク質の GI によっては、XML ツリーが異なる場合があります。このプロセスを確実に自動化することが難しくなります。

私の質問: XML ツリー全体ではなく、タンパク質配列のみを取得することは可能ですか? あるいは、XML ファイルの構造がタンパク質ごとに異なる可能性があることを考えると、XML ファイルからタンパク質配列を抽出するにはどうすればよいでしょうか?

ありがとう

0 投票する
1 に答える
120 参照

search - ターゲット配列に一致しない配列を見つける

BiostarのRnaerによる興味深い質問:

線虫ゲノムのどの領域とも一致しない特定の長さ (たとえば 30nt) の固有の DNA/タンパク質配列を見つけたいと考えています。それを行うためのツールはありますか?