問題タブ [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BioPythonであいまいな文字を解析する方法
私はPythonとプログラミング全般に不慣れです。いくつかのコンポーネントが私が取り組んでいるスクリプトに役立つことを期待して、BioPythonをインストールしました。そのスクリプトは、多くのxreadファイルを処理する必要があります。各ファイルには、いくつかの方法でスライスする必要のあるマトリックスが含まれています。IUPAC以外の形式でコード化されたあいまいな文字を含むシーケンスで必要とされる奇妙な方法でインデックスを作成できるシーケンスデータ型またはクラス(違いはありますか?)がすでに存在することを期待しています。たとえば、シーケンスで。
文字列リテラル内の文字は、表されるDNAシーケンス内のまたはのいずれかの単一のあいまいな文字を表します[01]
。したがって、スライスはを返す必要があります。見落としているかもしれませんが、BioPythonのドキュメントでこれについて何も見つけることができませんでした。これを行うBioPythonに何かがある場合、関連するドキュメントを教えていただけますか?0
1
[-6:]
3[01]3-22
ありがとう。
module - Biopython、PYTHONPATH、モジュールの検索の問題
Biopythonをインストールしましたが、コンピューターにモジュールを認識させることができません。たとえば、コモドで次のようなテキストファイルを作成します。
ターミナルで実行して受信します:
ちなみに、インタラクティブモードでモジュールをインポートすることもできません。ドキュメントには、PYTHONPATH(PATHと同様)と呼ばれる環境変数にエクスポートすることでモジュール検索パスを追加できると記載されていますが、ターミナルに「env」と入力すると、そのような環境変数は表示されません。私は生物学者であり、コンピューター科学者やプログラマーではありません。これがナンセンスに聞こえる場合は、私のナイーブに耐えてください。
python - Biopython クラス インスタンス - Entrez.read からの出力: 出力の操作方法がわかりません
Pubmed からいくつかの xml をダウンロードしようとしています - 問題ありません。Biopython は素晴らしいです。問題は、出力の操作方法がよくわからないことです。解析された xml のほとんどを sql データベースに入れたいのですが、出力に慣れていません。解析された xml を辞書のように呼び出すことができるものもありますが、それほど単純ではないように見えるものもあります。
タイトルを見つけたい場合は、次のようにします。
しかし、解析されたオブジェクトの型はクラスです:
これは、辞書として使用するよりもはるかに簡単な方法があるに違いないと思います。しかし、私がしようとすると:
うまくいきません。もちろん辞書としては使えますが、後で問題が発生します。
本当の問題は、レコードを辞書のように使用するときに、レコードから特定の情報を取得しようとすることです。
つまり、単純に (これは専門用語です;) SQL データベースに変換することはできませんが、変換する必要があります。
全体として、Entrez.read() が提供する詳細な情報には満足していますが、結果のクラス インスタンスで情報を簡単に使用する方法がわかりません。通常、次のようなことができます
しかし、うまくいきません。
乾杯
ウィートン
biopython - biopython 経由で Ensembl に接続する
私はpythonとbiopythonの作業に参加したばかりで、Ensebmlに接続して、いくつかのシーケンスとTSS、いくつかの遺伝子のリストなどの他のデータを取得したいのですが、私の問題は、biopythonで実行するメソッドまたはモジュールが見つからないように見えることですそれで。これは、Ensembl API を使用する perl では非常に日常的なことです。これらのことがbiopythonでどのように行われているかを確認するために、誰かが私に教えてくれたり、ドキュメントを教えてくれたりしたら、本当に感謝しています。ありがとう
biopython - Biopython-一度に固定数のseq_recordsを読み取る
fastqファイルからPHREDスコアを取得し、それらをすべて1つのリストに入れてから、そのリストを別の関数に渡すコードを作成しました。それはそのように見えます:
問題は、すべてのseq_recordsが検索され、対応するPHREDスコアが取得されるまで、このループが続くことです。RAMをより保守的にするために、一度に少数のseq_records(たとえば、100)を読み取り、それぞれの品質スコアを進行中のuberlistにポップするコードが必要です。次に、次の100個のseq_recordsから情報を取得し、ループを再度実行します。これを行う方法を理解するのに苦労しています。何か案は?
python - PythonからEMBOSSプログラムを呼び出す際の問題
Pythonを介してsixpackというEMBOSSプログラム(コマンドライン経由で実行)を呼び出すのに問題があります。
私はWindows7、Pythonバージョン3.23、Biopythonバージョン1.59、EMBOSSバージョン6.4.0.4を介してPythonを実行しています。Sixpackは、6つのリーディングフレームすべてのDNA配列を翻訳するために使用され、出力として2つのファイルを作成します。ORFを識別する配列ファイル、およびタンパク質配列を含むファイル。
コマンドラインから正常に呼び出すことができる必須の引数が3つあります:(-sequence [input file]
、、-outseq [output sequence file]
)-outfile [protein sequence file]
。私はos.systemの代わりにサブプロセスモジュールを使用してきました。これは、より強力で用途が広いことを読んだためです。
以下は私のPythonコードです。これはエラーなしで実行されますが、目的の出力ファイルを生成しません。
python - Python編集距離
私はBiopythonを使用して遺伝子の突然変異を分析する分子生物学者であり、私の問題は次のとおりです。
多くの異なるシーケンス(数百万)を含むファイルがありますが、そのほとんどは重複しています。重複を見つけて破棄し、一意のシーケンスごとに1つのコピーを保持する必要があります。モジュールeditdistを使用して、それらすべての間の編集距離を計算し、重複しているものを判別することを計画していましたが、editdistはファイルではなく2つの文字列でのみ機能します。
文字列の代わりにファイルでそのモジュールを使用する方法を知っている人はいますか?
python - Pythonでfastaファイルのヘッダーを一致させる
2 つのファイルがあります。1 つ目はヘッダーとシーケンスを含む fasta ファイルで、2 つ目はヘッダーのみで構成されています。
ファイル_1:
ファイル_2:
File_2 のヘッダーを、7 番目の「|」までまったく同じ文字を持つ File_1 のものと一致させたいと考えています。
File_1 の項目を分割します (ヘッダーの各セクションはリストにインデックス化されます)。「>」で始まる任意の行は、変数に配置されます。
File_2 でこれらの同じインデックスを比較して、次の出力を返すことができる方法を見つけようとしています。
私が試した方法のいくつかはインデックスを使用していますが、私のキーは一意ではありません。最初の 6 つの要素をどのように取得してキーにすることができますか、または現在試みている方法よりも優れた方法はありますか? ありがとうございました。
biopython - biopythonqblast関数データが返されません
私はNCBIデータベースに対して8mer(長さ8の文字列)を爆破しようとしています。ただし、qblastを使用すると、一致に関しては空になります。これは私のコードです:
これを行うと、空のリスト[]が出力されます。なぜこうなった?誰かがそれに光を当てることができますか?
NCBIオンラインBLASTツールを使用して一致を取得できます。「SSRVQDGMGLYTARRVR」のような長いkmerを使用すると、一致を取得することもできます。たまたま、検索した8マーがすべて空になっています。
python - 各文字に値を割り当て、pythonまたはawkを使用して平均を見つける方法は?
以下に示すように、タンパク質配列(200配列)を含むテキストファイルがあります。
シーケンスの各文字に次の値を与える必要があり、各シーケンスの平均を見つける必要があります。
望ましい出力
awkまたはpythonでこれを行うにはどうすればよいですか?
あなたの提案をいただければ幸いです