perlで解析したい大きなプレーンテキストドキュメントがたくさんあります。各ドキュメントには、ほとんどが英語の段落が含まれており、各ドキュメントにはいくつかのプレーンテキストが表に記されています。
テーブル構造を説明する文法を作成しましたが、Parse::RecDescentまたはRegexp::Grammarsを使用してテーブルを抽出するのが最適かどうかわかりません。
最初はParse::RecDescentに傾倒しましたが、それぞれの中に埋め込まれた抽出したいいくつかのテーブルを見つけるために、無視したいドキュメントテキストの90%をどのように処理するかが文法でわかりません。資料。
おそらく、一致するものが見つかるまでドキュメント全体で表現を「プル」できるように、Regexp :: Grammarsが必要ですか?
ありがとう