入力単語はスタンドアロンであり、文の一部ではありませんが、入力単語がすべての可能なPOSタグを持つ異なる文にあるかのように、可能なすべての見出し語を取得したいと思います. また、単語の補題のルックアップ バージョンも取得したいと思います。
なぜ私はこれをしているのですか?
すべてのドキュメントから見出し語を抽出し、見出し語間の依存リンクの数も計算しました。どちらも を使用して行いen_core_web_sm
ました。ここで、入力単語が与えられると、入力単語の可能なすべての補題に最も頻繁にリンクされる補題を返したいと思います。
token._lemma
要するに、私が数えた補題リンクとの一貫性を維持するために、可能なすべての POS タグを使用して入力単語の動作を複製したいと思います。