3

私は非公式に書かれたテキストのコーパスを扱っていますが、一般的に慣習により非常に標準的な形式に準拠しており ( Froyo Frozen YogurtSmucker's Peanut Butter のようなものを考えてください)、場合によっては再帰が必要です ( Froyo Frozen Yogurt with Smucker's Peanut Butter )。

正規表現を使用すると、複雑さがすぐに手に負えなくなります ( Froyo の Frozen Yogurt 、Smucker's の Froyo Frozen Yogurt with Peanut Butterなど)。

このための EBNF を作成するのに役立つリソースを見つけるのに苦労しています。また、NLP メソッドが複雑すぎます (さらに、私の「品詞」は通常の英語と実際には対応していません)。半形式化されたテキストを対象とした中間的なアプローチはありますか?

4

1 に答える 1

0

たとえば、安価でシンプルな EBNF をお気に入りのプログラミング言語に組み込むことができます。

var digit_excluding_zero = "1|2|3|4|5|6|7|8|9";
var digit = "0|" + digit excluding zero;

(これはEBNF ウィキペディア ページの最初の例です)

于 2012-07-18T09:47:53.457 に答える