私は[コンピューターの]言語学者ではないので、このトピックで夕食のダミーを許してください.
ウィキペディアによると、見出し語化は次のように定義されています。
言語学における見出し語化 (または見出し語化) は、単語のさまざまな語形変化をグループ化して、1 つの項目として分析できるようにするプロセスです。
ここで私の質問は、セット {am, is, are} の任意のメンバーの見出し語化されたバージョンは「be」であるはずですか? そうでない場合、なぜですか?
2 番目の質問: R または Python でそれを取得するにはどうすればよいですか? 私はこのリンクのような方法を試しましたが、それらのどれも「ある」を与えられた「ある」を与えません。少なくともテキスト文書を分類する目的では、これは理にかなっていると思います。
また、ここにあるデモではそれができませんでした。
私は何をしていますか/間違っていると思いますか?