0

I have this data here:

'**Otolemur_crassicaudatus**_/7977-8746 gi|238809369|dbj|**AB371093.1**|':0.00000000,'**Otolemur_crassicaudatus**/7977-8746 gi|238866848|ref|**NC_012762.1**|':

It is all on one line in a .txt file. I was wondering how I would go about extracting the Names (i.e the Otolemur and the AB and NC numbers (bold) to print to a new file but without all the other columns. This is a tiny, tiny snippet of what I have, and to be able to do this would be such a time saver.

4

1 に答える 1

1

保持したいものにある程度の予測可能性があると仮定すると、良いものと一致するある種の正規表現が必要になります。次に、一致オブジェクトのリストを取得して、必要に応じてすべてを新しいファイルに書き込むことができます。正規表現パターンを作成するのに十分なほどデータがどのように見えるかはわかりませんが、基本的な変換は次のようになります。

import re
infile = open('input.txt', 'r')
outfile = open('output.txt', 'w')
for line in infile:
    # Write each matching piece to its own line in the new file
    outfile.write('\n'.join(re.findall('PATTERN', line)))
infile.close()
outfile.close()
于 2013-03-07T00:15:16.940 に答える