2

ルビー語幹https://github.com/aurelian/ruby-stemmerがありますが、1)英語の不規則動詞を語幹化しない2)Windowsでネイティブ拡張機能を構築できません。問題の少なくとも1つを修正する代替手段はありますか?

4

3 に答える 3

6

ステマー(通常は単語の終わりを切り落とす)ではなく、レンマタイザー(形態に関する情報があり、不規則な単語を処理できる)を検索する必要があると思います。Manning、Raghavan、およびSchützeの情報検索に関するオンラインブックでこの説明を参照してください。

試したことはありませんが、Ruby用のこの英語のレンマタイザーelemmaをすばやく検索しまし

レンマ化を行うことができる一般的に使用される(Ruby以外の)英語の形態素解析器はmorphaです。

于 2010-12-22T11:50:59.540 に答える
4

どのステマーも英語の不規則動詞を処理できません。

  • https://github.com/ealdent/uea-stemmer-純粋なルビー、よく書かれた、2009年、ドキュメントはほとんどありませんが、他のドキュメントよりも少し多く、WindowsOKにインストールされます
  • https://github.com/romanbsd/fast-stemmer純粋なC、読みにくい、他のものよりも速いはずです(私はパフォーマンスをテストしていません)、2009年から、非常に最小限のドキュメントがあり、WindowsOKにインストールされます。この方法には副作用があります。コピーを作成するように注意してください
  • https://github.com/aurelian/ruby-stemmer 2010年、Windowsでネイティブ拡張機能を構築できません。英語以外の他のヨーロッパ言語を処理できます
  • http://rubyforge.org/projects/stemmer pure ruby​​、2006年以降更新されておらず、ドキュメントがなく、Windowsに正常にインストールされ、どのように機能するかわかりませんでした
  • http://rubyforge.org/projects/stemmer4r-ドキュメントなし、2005年。試しませんでした
于 2010-12-21T16:45:02.303 に答える
1

ルビーベースのNLPをグーグルで検索しているときにこれを見つけましたhttp://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

于 2011-04-05T12:46:36.343 に答える