2

いくつかの SQL ステートメントを解析しようとしています。以下にサンプルを示します。

select
    ms.member_sk a,
    dd.date_sk b,
    st.subscription_type,
    (SELECT foo FROM zoo) e
from dim_member_subscription_all p,
     dim_subs_type
where a in (select moo from t10)

現時点では、テーブルのみを取得することに興味があります。[zoo, dim_member_subscription_all, dim_subs_type] & [t10] を見たいと思います

Paul McGuire の例を見て、小さなスクリプトをまとめました。

#!/usr/bin/env python
import sys
import pprint
from pyparsing import *


pp = pprint.PrettyPrinter(indent=4)
semicolon = Combine(Literal(';') + lineEnd)
comma = Literal(',')
lparen = Literal('(')
rparen = Literal(')')

update_kw, volatile_kw, create_kw, table_kw, as_kw, from_kw, \
where_kw, join_kw, left_kw, right_kw, cross_kw, outer_kw, \
on_kw , insert_kw , into_kw= \
    map(lambda x: Keyword(x, caseless=True), \
        ['UPDATE', 'VOLATILE', 'CREATE', 'TABLE', 'AS', 'FROM',
         'WHERE', 'JOIN' , 'LEFT', 'RIGHT' , \
         'CROSS', 'OUTER', 'ON', 'INSERT', 'INTO'])

select_kw = Keyword('SELECT', caseless=True) | Keyword('SEL' , caseless=True)

reserved_words = (update_kw | volatile_kw | create_kw | table_kw | as_kw |
                  select_kw | from_kw | where_kw | join_kw |
                  left_kw | right_kw | cross_kw | on_kw | insert_kw |
                  into_kw)

ident = ~reserved_words + Word(alphas, alphanums + '_')

table = Combine(Optional(ident + Literal('.')) + ident)
column = Combine(Optional(ident + Literal('.')) + (ident | Literal('*')))

column_alias = Optional(Optional(as_kw).suppress() + ident)
table_alias = Optional(Optional(as_kw).suppress() + ident).suppress()

select_stmt = Forward()
nested_table = lparen.suppress() + select_stmt + rparen.suppress() + table_alias
table_list = delimitedList((nested_table | table) + table_alias)
column_list = delimitedList((nested_table | column) + column_alias)

txt = """
select
       ms.member_sk a,
       dd.date_sk b,
       st.subscription_type,
       (SELECT foo FROM zoo) e
from dim_member_subscription_all p,
     dim_subs_type
where a in (select moo from t10)
"""

select_stmt << select_kw.suppress() + column_list + from_kw.suppress() +  \
               table_list.setResultsName('tables', listAllMatches=True)

print txt

for token in select_stmt.searchString(txt):
    pp.pprint(token.asDict())

次のネストされた出力を取得しています。誰かが私が間違っていることを理解するのを手伝ってもらえますか?

{   'tables': ([(['zoo'], {}), (['dim_member_subscription_all', 'dim_subs_type'], {})], {})}
{   'tables': ([(['t10'], {})], {})}
4

1 に答える 1