それで、何ヶ月も試みては失敗し、一般的に立ち往生した後、私はついに外に出て外部の助けを求めることにしました. 私はまだ perl で新しいトリックを学んでおり、ここの誰かが私を助けてくれることを願っています。
次の形式の種があります。
>gi|###|...|...|...[species name] amino acid sequence
これらの系統のうち、同じ種名 (ホモ サピエンスなど) を含むが、アミノ酸配列が異なるものがあります。これが、技術的には正確な重複ではないため、ハッシュまたはその他の方法で重複を削除できない理由です。
重複した種名を削除するか印刷しない方法が必要ですが、出力ファイルには上記で指定した形式が含まれています。したがって、異なるアミノ シーケンスまたは # を持つホモ サピエンスが 3 回出現した場合、対応するシーケンスを持つホモ サピエンス (どちらでもかまいませんが、ランダムである可能性があります) を 1 つだけ含むように出力する必要があります。
正しい方向への助けや指摘は大歓迎です! 私が質問について十分に明確であることを願っています。読んでくれてありがとう!:D