自然言語で書かれたテキストを処理するためにGATEを使用しています。テキストから身長、体重、bpなどを抽出し、構造化された形式で保存する必要があります。さて、これらのもの(すなわち、身長、体重など)は、私には知られていない多くの形で書くことができます。私が思いつくことができるすべての異なる方法のためにJAPE文法を書くことは、それを単にハードコーディングすることです。より柔軟な方法でドキュメントを処理する他のオプションはありますか?
また、ANTLRを使用して、身長や体重などのさまざまな書き方を提示することで、jape文法を生成できるかどうかについて混乱していますか?
テキストには次のものが含まれます。
Vitals: Height: 72 inches, Weight is 170 pounds, T is 89.9 degree Fahrenheit. OR
Vitals: He is 184 cm tall, his weight was 67.8 Kg, RR 16 (its respiration rate). OR
Vitals: height is 6ft 3 in, he weighs 70 kg, pulse is 67, Temperature 99.8 degrees.
現在、JAPE文法とANNIEを使用してテキストをトークン化し、これらのバイタルを抽出して構造化された形式で保存しています。ANTLRを使用すると、このようなテキストをトークン化するのに柔軟性がありますか?身長や体重などはさまざまな形で表現できるので、表現方法ごとにハードコーディングしてはいけないという意味で柔軟性があります。
ジャペ文法を生成する文法ジェネレータを検索または開発するのは良い考えですか?
問題をよりよく理解するために詳細が必要な場合は、plsからお知らせください。
どうもありがとう!!