1

テキストの本文から情報を見つけることができるベストプラクティス、アルゴリズム、またはソフトウェア(パーミッシブライセンスが必要なオープンソース...)はありますか?私が言及しているのは:

  • テキスト内のすべてのメールアドレスを検索する
  • 都市のすべての言及を見つける
  • 州のすべての言及を見つける
  • すべてのURLを検索
  • 電話番号のすべての言及を見つける
  • 郵便番号に関するすべての言及を検索...さらに追加する機能付き...

RapidMinerはこのようなテキストマイニングを実行できるはずだと聞きましたが、AGPLは私の目的には受け入れられないライセンスです。

この種の分析を行うための「標準」はありますか?

4

2 に答える 2

1

固有表現抽出について読んでください。ApacheOpenNLPまたはApacheUIMAを試すことができます。どちらも、Apacheライセンスを持っています。

于 2011-06-10T20:55:15.847 に答える
1

このようなエンティティタイプの場合、 gexpなどのルールベースのNERツールを使用できます。

于 2011-06-12T15:41:33.757 に答える