perl - ドキュメントからテーブルを抽出するには、Parse::RecDescentまたはRegexp::Grammarsを使用する必要がありますか？

Question

perlで解析したい大きなプレーンテキストドキュメントがたくさんあります。各ドキュメントには、ほとんどが英語の段落が含まれており、各ドキュメントにはいくつかのプレーンテキストが表に記されています。

テーブル構造を説明する文法を作成しましたが、Parse::RecDescentまたはRegexp::Grammarsを使用してテーブルを抽出するのが最適かどうかわかりません。

最初はParse::RecDescentに傾倒しましたが、それぞれの中に埋め込まれた抽出したいいくつかのテーブルを見つけるために、無視したいドキュメントテキストの90％をどのように処理するかが文法でわかりません。資料。

おそらく、一致するものが見つかるまでドキュメント全体で表現を「プル」できるように、Regexp :: Grammarsが必要ですか？

ありがとう

score 1 · Accepted Answer

Regexp :: Grammarsは、ドキュメント全体で文法を引き出し、正規表現のように一致するものを見つけることができるため、私が望んでいたものです。Parse :: RecDescentは、ドキュメントをスキャンして文法に一致するテキストのみを見つけるのには適していないようです。

1 に答える 1