Stanford CoreNLPを使用して測定値を取得しようとしています。(別のエクストラクターを提案できる場合は、それも問題ありません。)
たとえば、15kg、15 kg、15.0 kg、15 kg、15 lbs、15 lbsなどを見つけたいのですが、CoreNLPs 抽出ルールの中で、測定用のものは見当たりません。
もちろん、純粋な正規表現でこれを行うこともできますが、ツールキットはより高速に実行でき、より高いレベルでチャンクする機会を提供します。たとえば、gbとギガバイトを一緒に扱い、RAMとメモリをビルディング ブロックとして扱います。構文解析 - 128 GB RAMや8 GB メモリなどのより大きなユニットを構築するため。
これには機械学習ベースではなく、ルールベースのエクストラクタが必要ですが、RegexNerなどの一部としては見当たりません。どうすればいいですか?
IBM Named Entity Extractionはこれを行うことができます。正規表現は、テキストをそれぞれに渡すのではなく、効率的な方法で実行されます。また、正規表現は意味のあるエンティティを表現するためにバンドルされています。たとえば、すべての測定単位を 1 つの概念にまとめたものなどです。