3

perlで解析したい大きなプレーンテキストドキュメントがたくさんあります。各ドキュメントには、ほとんどが英語の段落が含まれており、各ドキュメントにはいくつかのプレーンテキストが表に記されています。

テーブル構造を説明する文法を作成しましたが、Parse::RecDescentまたはRegexp::Grammarsを使用してテーブルを抽出するのが最適かどうかわかりません。

最初はParse::RecDescentに傾倒しましたが、それぞれの中に埋め込まれた抽出したいいくつかのテーブルを見つけるために、無視したいドキュメントテキストの90%をどのように処理するかが文法でわかりません。資料。

おそらく、一致するものが見つかるまでドキュメント全体で表現を「プル」できるように、Regexp :: Grammarsが必要ですか?

ありがとう

4

1 に答える 1

1

Regexp :: Grammarsは、ドキュメント全体で文法を引き出し、正規表現のように一致するものを見つけることができるため、私が望んでいたものです。Parse :: RecDescentは、ドキュメントをスキャンして文法に一致するテキストのみを見つけるのには適していないようです。

于 2011-10-12T03:03:08.097 に答える