2

WordNet の SQL バージョンを使用するつもりですが、DB で単語を見つけるために単語を見出し語化する方法を見つけるのに問題があります。WordNet lemmatizer 自体は、テキスト バージョンの WorldNet に適用されるため、使用できません。

ここで、実際の単語を返す優れたレンマタイザーがあることを読みました。それがまさに私が必要としているものです。おすすめのレンマタイザー「Morpha」をダウンロードしましたが、使い方がわかりません。

  • コンパイルは必要ですか?
  • どのファイルを使用すればよいですか?
  • WordNet SQL DB にアクセスするアプリケーションでどのように使用できますか?
4

4 に答える 4

1

UW は、morpha ステマーを Maven central にアップロードしました。はるかに使いやすくするラッパーがあります。それを依存関係として追加し、edu.washington.cs.knowitall.morpha.MorphaStemmerクラスを使用するだけです。インスタンスはスレッドセーフです (元の JFlex にはローカル変数用のクラス フィールドが不必要にありました)。クラスをインスタンス化し、ステミングしmorphaたい単語を実行します。

new MorphaStemmer().morpha("climbed") // goes to "climb"
于 2012-05-23T17:47:51.387 に答える
0

Minnen らの Morpha に関する論文は、レンマタイザーがどのように機能するかを理解し始めるのに適した場所かもしれません。私自身が経験を積んでからしばらく経ちましたが、既製のバイナリと同じように機能することは間違いありません。

パフォーマンスによっては、事前に単語に POS タグを付ける必要があるかもしれませんが、それは WordNet をクエリする場合とほぼ同じ問題であるため、いずれにしてもその丘を登る必要があるように聞こえ始めています.

Wordnet DB を照会するときは、基本的にルート フォームを使用しますが、そのためだけに使用する場合は、Wordnet 用に特別に設計された Morphy ステマーを試してみることを強くお勧めします。これは、ルート フォームに確実に一致します。に記載されています。

于 2009-07-27T14:34:56.260 に答える
0

また、トークン化、見出し語化などをすべて 1 つまたは個別に行う NLP パイプラインである TTT2 をチェックすることもできます。使いやすく、よく文書化されています: http://www.ltg.ed.ac.uk/software/lt-ttt2

于 2009-08-22T11:07:19.947 に答える