0

次のような文字列があるとします。

4 pallets of books with a weight of 437 kg. The pallets measure 80 x 120 x 120 cm each and are protected with red shrinkwrap.

OpenNLPを使用してこのような情報(特に色、重量、サイズ)を抽出するための最良のアプローチは何ですか...カスタマイズされたコーパスと独自のトレーニングについて考えています。しかし、どのアプローチから始めるのが最適かわかりません。

<pallet amount>4</pallet amount> pallets of <product>books</product> with a weight of <weight>437</weight> <weightUnit>kg</weightUnit>. The pallets measure <height>80</height> x <width> 120 </width> x <length>120 </length> <measurementUnit>cm</measurementUnit> each and are protected with <color>red</color> shrinkwrap.
4

1 に答える 1

1

あなたは 1 つのアプローチ (OpenNLP を使用したカスタマイズされたトレーニング) しか挙げていないので、他の選択肢が何であるかはわかりません。検索する語句が (a) 通常の語句であり、(b) 他の語句と異なる場合 (正規表現を使用できる場合) を除いて、このアプローチはほぼ確実に最良の方法です。

トレーニングとタグ付けを可能にするさまざまなパッケージがあります。OpenNLP はその 1 つ、Stanford NE は別のパッケージです。彼らは異なるトレーニングアプローチを使用しており、それが結果に影響します. しかし、トレーニング データを取得したら、さまざまなエンジンで試してみて、どのように機能するかを確認できます。

于 2013-11-14T18:15:37.037 に答える