私は次のようBase: Lote Numero 1, Marcelo T de Alvear 500. Demanda: otras palabras.
に文を解析しようとしています。最初にテキストをピリオドで分割し、次にコロンの前にあるものをコロンlabel
の後の文のとして使用します。今、私は次の定義を持っています:
from pyparsing import *
unicode_printables = u''.join(unichr(c) for c in xrange(65536)
if not unichr(c).isspace())
def parse_test(text):
label = Word(alphas)+Suppress(':')
value = OneOrMore(Word(unicode_printables)|Literal(','))
group = Group(label.setResultsName('label')+value.setResultsName('value'))
exp = delimitedList(
group,
delim='.'
)
return exp.parseString(text)
value
そして一種の作品ですが、それはユニコード文字(そしてアルファベットにないものは何でも)を落とします、そして私はこれではなく全体の文を持ちたいと思っています: 'value': [(([u'Lote', u'Numero', u'1', ',', u'Marcelo', u'T', u'de', u'Alvear', u'500'], {}), 1)
。
これに取り組む簡単な方法はありますか?