英語の動詞とそのバリエーションのリストを含む巨大なCSV/XMLまたはファイルがどこかにありますか(例:販売->販売、販売、販売、販売者、販売者)?
これはNLPシステムに役立つと思いますが、どこにもリストがないようです。または、それは私のひどいグーグルスキルである可能性があります。誰か他に手がかりがありますか?
英語の動詞とそのバリエーションのリストを含む巨大なCSV/XMLまたはファイルがどこかにありますか(例:販売->販売、販売、販売、販売者、販売者)?
これはNLPシステムに役立つと思いますが、どこにもリストがないようです。または、それは私のひどいグーグルスキルである可能性があります。誰か他に手がかりがありますか?
Catvarを検討してください:
Categorial-Variation Database(またはCatvar)は、体言(語彙素)とそのカテゴリ(品詞)のバリアントのクラスターのデータベースです。たとえば、hunger(V)、hunger(N)、hungry(AJ)、およびhungriness(N)という単語は、空腹の状態を説明するいくつかの基本的な概念の異なる英語の変形です。別の例は、開発中のクラスターです:(develop(V)、developer(N)、developed(AJ)、developing(N)、developing(AJ)、development(N))。
何を探しているのかわかりませんがWordNet
、英語の字句データベースから始めるのがよいと思います。詳細については、http://wordnet.princeton.edu/をご覧ください。
私があなたに言及したリンクはそれを言います
WordNetの構造は、計算言語学と自然言語処理のための便利なツールになります。
ウィクショナリーのダンプを取得し、そこからこの情報を抽出することを検討します。
http://en.wiktionary.org/wiki/sellは、単語の多くの形式(販売、販売、販売)について言及しています。
単に単語を標準形に正規化することを目的としている場合は、レンマタイザーまたはステマーの使用を検討してください。本当に良い英語のレンマタイザーであるモルファで遊んでみてください。