私は非公式に書かれたテキストのコーパスを扱っていますが、一般的に慣習により非常に標準的な形式に準拠しており ( Froyo Frozen Yogurt、Smucker's Peanut Butter のようなものを考えてください)、場合によっては再帰が必要です ( Froyo Frozen Yogurt with Smucker's Peanut Butter )。
正規表現を使用すると、複雑さがすぐに手に負えなくなります ( Froyo の Frozen Yogurt 、Smucker's の Froyo Frozen Yogurt with Peanut Butterなど)。
このための EBNF を作成するのに役立つリソースを見つけるのに苦労しています。また、NLP メソッドが複雑すぎます (さらに、私の「品詞」は通常の英語と実際には対応していません)。半形式化されたテキストを対象とした中間的なアプローチはありますか?