これまでのところ、よく知られている Java パーサーをいくつか評価してきましたが、何らかの形で実際に無料で商用利用できるものはありません。無料ですが、商用目的で利用できないトレーニング データを使用する OpenNLP と同様です。Morphadorner はありますが、2009 年に最後に更新されたようです。Stanford NLP は完全な GPL ですが、LingPipe は有料ライセンスを提供します。
現時点では資金提供を受けていないスタートアップであるため、高額のライセンス料を支払うことは実際には不可能です。業界標準のソリューションとは比較にならない要件に合わせてルールベースのパーサーを実装する必要がありました。
とはいえ、私はフリークではありませんし、世界で数人しか使っていないものを必要としているわけでもありません。私は、NLP のようなものが人気を得ていると固く信じており、POS タガーを再び実装することは、車輪を再発明するようなものです。これに対する業界標準のソリューションは本当にないのでしょうか?
更新:業界標準の考え方は、有料のものを意味するようです。では、HTML パーサーのいくつかのライブラリ (とりわけ) が無料になったのはなぜですか。Html パーサーは NLP よりもはるかに使用されていますが、それでも NLP タスクにはかなり大きな要件があります。
更新: 質問は終了しました。Wordnet とさまざまなプリティ ルールを使用するキーワード抽出用の小さな小さなライブラリをすぐにリリースできることを嬉しく思います。ありがとうAB