次のような文字列があるとします。
4 pallets of books with a weight of 437 kg. The pallets measure 80 x 120 x 120 cm each and are protected with red shrinkwrap.
OpenNLPを使用してこのような情報(特に色、重量、サイズ)を抽出するための最良のアプローチは何ですか...カスタマイズされたコーパスと独自のトレーニングについて考えています。しかし、どのアプローチから始めるのが最適かわかりません。
<pallet amount>4</pallet amount> pallets of <product>books</product> with a weight of <weight>437</weight> <weightUnit>kg</weightUnit>. The pallets measure <height>80</height> x <width> 120 </width> x <length>120 </length> <measurementUnit>cm</measurementUnit> each and are protected with <color>red</color> shrinkwrap.