Pythonで正規表現を使用するのは初めてです。次の方法を理解するのに問題があります。
私はこのような文字列としてたくさんのテキストの説明を持っています:
FX0XST001ALF89 OLIGO: Bacillus_cand1=ATGCGGTTCAAAATGTTATC
FILE:/home/AAFC-AAC/fungs/biodiversity/pipelines/454PipelineOutput/v7_newest_testrun_full/rs75/plate1/FX0XST001.MID13/FX0XST001.MID13.sff.trim.fasta
Project: SAGES SFF: FX0XST001 SFF.MID: FX0XST001.MID13
Plate: 1.1 MID_all: MID13 MID: 13 Sample: BK104
Collector: BK Year: 2008 Week: Year_Week:
Location: Ottawa_ON City: Ottawa Province: ON Crop:
Treatment: Substrate_all: Air Substrate: Air Target: Bacteria
Forward Primer: Bac16S27F Reverse Primer: Bac16S690R Taq: T
この大きな文字列内のカテゴリを抽出して、データベースなどに保存できるようにしたいと思います。次に例を示します。
Year: 2008
Sample: BK104
Collector: BK
etc...
これを実現するためにPythonで正規表現を使用するにはどうすればよいですか?
私は検索を使用することを考えています:
match = re.search(r'Sample:\w\w\w\w\w', theTextDescription)
問題は、各「フィールド」のテキストの長さが異なることです。私はそれを考慮に入れる方法を本当に知りません