スクリプト (つまり、構造化されたコンピューター言語) 用のパーサーとレクサーは多数あります。しかし、(ほとんど) 構造化されていないテキスト文書をより大きなセクション (章、段落など) に分割できるものを探しています。
人がそれらを特定するのは比較的簡単です。目次、謝辞、または本文の開始場所であり、ルールベースのシステムを構築して、これらの一部 (段落など) を特定することができます。
私はそれが完璧であるとは思っていませんが、そのような幅広い「ブロックベース」のレクサー/パーサーを知っている人はいますか? または、役立つ可能性のある文学の方向性を教えていただけますか?