この質問は、R または python (am, are, is -> be?) の Lemmatizerの重複の可能性がありますが、前の質問が広すぎると言って閉じられたため、再度追加します。唯一の答えはそうではありません効率的です(これは外部のWebサイトにアクセスするためです。これは、レンマを見つけるための非常に大きなコーパスがあるため、遅すぎます)。したがって、この質問の一部は、上記の質問に似ています。
ウィキペディアによると、見出し語化は次のように定義されています。
言語学における見出し語化 (または見出し語化) は、単語のさまざまな語形変化をグループ化して、1 つの項目として分析できるようにするプロセスです。
R での見出し語化に関する単純な Google 検索は、Rのパッケージのみを指します。見出し語化関数への文字ベクトル入力が になることをwordnet
期待してこのパッケージを試したところ、このパッケージはさまざまなフィルターを介した関数に似た機能のみを提供することがわかりました。名前と辞書。c("run", "ran", "running")
c("run", "run", "run")
grepl
wordnet
フィルター名がそれ自体を説明するように、「car」で始まる最大 5 単語を与えるパッケージのコード例:
filter <- getTermFilter("StartsWithFilter", "car", TRUE)
terms <- getIndexTerms("NOUN", 5, filter)
sapply(terms, getLemma)
上記は、私が探している見出し語ではありません。私が探しているのはR
、単語の真の語根を見つけたいということです: (たとえば from c("run", "ran", "running")
to c("run", "run", "run")
)。