2

次のような非標準のファイル形式を持つプロジェクトがあります。

var foo = 5
load 'filename.txt'
var bar = 6
list baz = [1, 2, 3, 4]

そして、これを BeautifulSoup と同じようにデータ構造に解析したいと考えています。ただし、この形式は BeautifulSoup ではサポートされていません。値を変更して書き直すことができるように解析ツリーを構築する Pythonic の方法は何ですか? 最後に、私は次のようなことをしたいと思います:

data = parse_file('file.txt')
data.foo = data.foo * 2
data.write_file('file_new.txt')
4

2 に答える 2

5

これはpyparsingを使用したソリューションです...あなたの場合に機能します。私は専門家ではないので、あなたの基準によってはコードが醜いかもしれないことに注意してください...乾杯

class ConfigFile (dict):
    """
    Configuration file data
    """

    def __init__ (self, filename):
        """
        Parses config file.
        """

        from pyparsing import Suppress, Word, alphas, alphanums, nums, \
            delimitedList, restOfLine, printables, ZeroOrMore, Group, \
            Combine

        equal = Suppress ("=")
        lbrack = Suppress ("[")
        rbrack = Suppress ("]")
        delim = Suppress ("'")

        string = Word (printables, excludeChars = "'")
        identifier = Word (alphas, alphanums + '_')

        integer = Word (nums).setParseAction (lambda t: int (t[0]))
        real = Combine( Word(nums) + '.' + Word(nums) ).setParseAction (lambda t: float(t[0]))
        value = real | integer

        var_kwd = Suppress ("var")        
        load_kwd = Suppress ("load")
        list_kwd = Suppress ("list")            

        var_stm = Group (var_kwd + identifier + equal + value +
                         restOfLine.suppress ()).setParseAction (
                             lambda tok: tok[0].insert(len(tok[0]), 0))

        load_stm = Group (load_kwd + delim + string + delim +
                          restOfLine.suppress ()).setParseAction (
                              lambda tok: tok[0].insert(len(tok[0]), 1))

        list_stm = Group (list_kwd + identifier + equal + lbrack +
                          Group ( delimitedList (value, ",") ) +
                          rbrack + restOfLine.suppress ()).setParseAction (
                              lambda tok: tok[0].insert(len(tok[0]), 2))


        cnf_file = ZeroOrMore (var_stm | load_stm | list_stm)

        lines = cnf_file.parseFile (filename)
        self._lines = []
        for line in lines:
            self._lines.append ((line[-1], line[0]))
            if line[-1] != 1: dict.__setitem__(self, line[0], line[1])            
        self.__initialized = True
        # after initialisation, setting attributes is the same as setting an item

    def __getattr__ (self, key):
        try:
            return dict.__getitem__ (self, key)
        except KeyError:
            return None


    def __setattr__ (self, key, value):
        """Maps attributes to values. Only if we are initialised"""

        # this test allows attributes to be set in the __init__ method
        if not self.__dict__.has_key ('_ConfigFile__initialized'):
            return dict.__setattr__(self, key, value)

        # any normal attributes are handled normally
        elif self.__dict__.has_key (key): 
            dict.__setattr__(self, key, value)

        # takes care of including new 'load' statements
        elif key == 'load':
            if not isinstance (value, str):
                raise ValueError, "Invalid data type"
            self._lines.append ((1, value))

        # this is called when setting new attributes after __init__
        else:
            if not isinstance (value, int) and \
                not isinstance (value, float) and \
                not isinstance (value, list):
                raise ValueError, "Invalid data type"

            if dict.has_key (self, key):
                if type(dict.__getitem__(self, key)) != type (value):
                    raise ValueError, "Cannot modify data type."
            elif not isinstance (value, list): self._lines.append ((0, key))
            else: self._lines.append ((2, key))            
            dict.__setitem__(self, key, value)


    def Write (self, filename):
        """
        Write config file.
        """
        fid = open (filename, 'w')
        for d in self._lines:
            if d[0] == 0: fid.write ("var %s = %s\n" % (d[1], str(dict.__getitem__(self, d[1]))))
            elif d[0] == 1: fid.write ("file '%s'\n" % (d[1]))
            else: fid.write ("list %s = %s\n" % (d[1], str(dict.__getitem__(self, d[1]))))


if __name__ == "__main__":

    input="""var foo = 5
load 'filename.txt'
var bar = 6
list baz = [1, 2, 3, 4]"""

    file ("test.txt", 'w').write (input)
    config = ConfigFile ("test.txt")
    # Modify existent items
    config.foo = config.foo * 2
    # Add new items
    config.foo2 = [4,5,6,7]
    config.foo3 = 12.3456
    config.load = 'filenameX.txt'
    config.load = 'filenameXX.txt'
    config.Write ("test_new.txt")

編集

使用するクラスを変更しました

__getitem__, __setitem__

ポスターの要求に応じて、解析されたアイテムへの「メンバーへのアクセス」構文を模倣するメソッド。楽しみ!

PS

の過負荷

__setitem__

メソッドは、「通常の」属性 (クラス メンバー) の設定と解析された項目 (属性のようなアクセス) の間の干渉を避けるために注意して実行する必要があります。これらの問題を回避するために、コードが修正されました。詳細については、次のリファレンス http://code.activestate.com/recipes/389916/を参照してください。これを発見したのは面白かったです!

于 2012-05-31T18:33:41.970 に答える
1

あなたが持っているのは、解析する必要があるカスタム言語です。

Python 用の多くの既存の解析ライブラリの 1 つを使用します。個人的にはPLYがオススメです。あるいは、Pyparsingも優れており、広く使用およびサポートされています。

言語が比較的単純な場合は、手書きのパーサーを実装することもできます。ここに例があります

于 2012-05-31T15:52:44.200 に答える