ファイルを恐れないでください!;-)
次のことを想定して例を投稿しています。
- そのテキストファイル
- 1 行に 1 つのシーケンス
-
filename = 'sequence.txt'
with open(filename, 'r') as sqfile:
sequences = sqfile.readlines() # now we have a list of strings
#discarding the duplicates:
uniques = list(set(sequences))
それだけです - pythons set-type を使用することで、すべての重複を自動的に排除します。
次のような同じ行にIDとシーケンスがある場合:
423401 ttacguactg
次のような ID を削除したい場合があります。
sequences = [s.strip().split()[-1] for s in sequences]
strip を使用して先頭と末尾の空白から文字列を取り除き、split を使用して行/文字列を 2 つのコンポーネント (id とシーケンス) に分割します。[-1] を使用して、最後のコンポーネント (= シーケンス文字列) を選択し、それをシーケンス リストに再パックします。