0/1
Python で正規表現を使用して、大きなタブ区切りのテキスト ファイルを 1 行ずつ解析し、または行に 5 つ以上のインスタンスが含まれる行を出力しようとしています1/1
。
私のスクリプトはほとんどそこにありますが、5 つ以上のインスタンスに苦労しています。
これにより、1 つの一致で行が出力されます。
import re
f = open ("infile.txt", "r")
out = open("outfile.txt", "w")
for line in f:
if re.match(r"(.*)(0|1)/(1)(.*)", line):
print >> out, line,
5つ以上の一致がある行のみを印刷するには、次のように試しfindall
ましfinditer
たが、機能しませんでした:
for line in f:
x = len(re.findall(r"(.*)(0|1)/(1)(.*)", line)):
if x > 5:
print >> out, line,
誰でもこれで私を助けることができますか?
テキスト ファイルの 1 行の例を次に示します (ファイル内のすべてのスペースはタブです)。
X 6529 . C A,G PASS AC=4,2;AF=0.6777 1/1:0,20 0/1:0,16 0/1:0,16 0/0:4,16 0/0:3,1