--tblout オプションを使用して表形式の出力形式を要求する FASTA ファイルを使用して hmmscan 分析を実行します。
ファイルは次のようになります (これは単なるフォーマットの例です)
targetname accession queryname accession e-value score bias
x_x_x PFyyyy.y ContigXXX_0 - x.xe-xx yy.y x.x
x PFyyyy.yy COntigXXX_1 - xe-x yy.y x.x
x_x PFyyyy.y COntigXXX_2 - xe-xx y.y x.x
x_x_x PFyyyy.yy COntigXXX_3 - x.xe-x yy.y x.x
.
..
ターゲット名の例: Methyltransf または Dimer_tnp_hAT または Nucleotide_trans
アクセッションの例: PF13847.1 または PF03407.11 または PF01958.13。
クエリ名の例: Contig244_1 または Contig44245_3 または Contig12345_6
ここで、2 番目の登録列は次のとおりです。 -
e.value の例: 4.0e-10 または 3.5e-15 など。
スコアとバイアスは次の形式の数値です: xx.x
私がやりたいのは、タンパク質ドメインへの重要なヒットを持つすべての ContigXXX_X がある queryname 列をカットすることです。
この後、それらを並べ替えて、各コンティグの最初の出現のみを保持し、ファイルを BlastP および BlastX からの結果と比較できます (ここで、nr にヒットしたコンティグのリストを既に取得できました)。データベース)
だから私の質問は次のとおりです。すべてのコンティグがある列をどのように切り取ることができますか? grep、sed、cut コマンドを試してみましたが、まだ適切なコマンドが見つかりません。
私は Unix 言語が初めてで、まだ学んでいるので、すべての提案は本当に感謝しています。
私の質問が明確でない場合は、教えてください。変更できます。