正規表現を作成して、コード内のすべての関数呼び出しを見つけることができます。このようなもの:
([_a-zA-Z]+)(?=\()
次に、re
モジュールを使用して、コード内の関数呼び出しにインデックスを付けるデータ構造を作成します。
import re
code = 'predicate(foo(x.bar, predicate(foo(...), bar)), bar)predicate(foo(x.bar, predicate(foo(...), bar)), bar)predicate(foo(x.bar, predicate(foo(...), bar)), bar)'
code_cp = code
regex = re.compile(r'([_a-zA-Z]+)(?=\()')
matches = re.findall(regex, code)
structured_matches = []
for m in matches:
beg = str.index(code, m)
end = beg + len(m)
structured_matches.append((m, beg, end))
code = code[:beg] + '_' * len(m) + code[end:]
これにより、次のようなデータ構造が得られます。
[
('predicate', 0, 9),
('foo', 10, 13),
('predicate', 21, 30),
('foo', 31, 34),
('predicate', 52, 61),
('foo', 62, 65),
('predicate', 73, 82),
('foo', 83, 86),
('predicate', 104, 113),
('foo', 114, 117),
('predicate', 125, 134),
('foo', 135, 138)
]
このデータ構造を関数と組み合わせて使用してparse
、各関数呼び出しのかっこの内容を引き出すことができます。
def parse(string):
stack = []
contents = ''
opened = False
for c in string:
if len(stack) > 0:
contents += c
if c == '(':
opened = True
stack.append('o')
elif c == ')':
stack.pop()
if opened and len(stack) == 0:
break
return contents[:-1]
paren_contents = []
for m in structured_matches:
fn_name, beg, end = m
paren_contents.append((fn_name, parse(code_cp[end:])))
最終的には、次のparen_contents
ようになります。
[
('predicate', 'foo(x.bar, predicate(foo(...), bar)), bar'),
('foo', 'x.bar, predicate(foo(...), bar)'),
('predicate', 'foo(...), bar'), ('foo', '...'),
('predicate', 'foo(x.bar, predicate(foo(...), bar)), bar'),
('foo', 'x.bar, predicate(foo(...), bar)'),
('predicate', 'foo(...), bar'), ('foo', '...'),
('predicate', 'foo(x.bar, predicate(foo(...), bar)), bar'),
('foo', 'x.bar, predicate(foo(...), bar)'),
('predicate', 'foo(...), bar'),
('foo', '...')
]
うまくいけば、これはあなたを正しい方向に向けます。