問題タブ [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - レンマタイゼーションまたはステミングが適用されている場合、形容詞の単語はそのルート ワード (名詞) にグループ化されません。
たとえば、見出し語化される単語は「managerial」または「financial」です。しかし、レンマタイゼーションは、management を「manager」としてグループ化することも、financial を「finance」としてグループ化することもサポートしていません。形容詞から語根 (名詞) を取得するために使用できる代替手段は何ですか?
java - Java Lemmatizer のビルド
Java API を使用してトークナイザーを構築しようとしています (スタンフォード、Apache OpenNLP が提供するものは使用しません)。正規表現と Java パターン/マッチャーを使用して、単語を分離することができました。
私は今、単語の補題を見つけたいと思っています。ライセンスの問題があるため、StanfordNLP を使用したくありません。次は何?参照/比較するモデルとして辞書が必要だと思います。と ...?誰かがそれをしたことがありますか?Java を使用して単語レンマタイザーを構築しようとしていますか? 前もって感謝します。:)
python - ntlk: 単語の抑揚を取得する方法
私は単語のリスト、ほぼ 5000 の英語の単語を持っており、各単語に対して次の屈折形が必要です。
名詞:単数形と複数形
動詞: 不定詞、現在単純、現在単純三人称、過去単純、現在分詞 (ing 形)、過去分詞
形容詞:比較級と最上級
副詞
Python経由でntlkの特定の単語(ヘルプなど)からこれらの情報を抽出するにはどうすればよいですか? (または、既製のリストがあるかもしれません)
c++ - C++ で見出し語化 (LemmaGen) を使用する方法
テキストの見出し語化にLemmaGen ( http://lemmatise.ijs.si ) を使用しています。コマンドラインで次のステートメントを実行することで、正常に使用できました。
ただし、実際にはプログラムで C++ プロジェクトのライブラリとして使用したいと考えています。LemmaGen C++ API の使い方を知っている人はいますか? ありがとう!
または、C++ でプログラム的に使用できる他の C++ lemmatisation ライブラリを提案できますか?
私はまだC ++に慣れていないので、間違った質問をしている場合は修正してください。
python - Python でのより高速なレンマタイゼーション手法
NLTK Word Net Lemmatizer を使用して、リスト ( textという名前) 内の単語を見出し語化するより高速な方法を見つけようとしています。どうやらこれは私のプログラム全体で最も時間のかかるステップです(cProfilerを使用して同じものを見つけました)。
以下は、速度を最適化しようとしているコードです-
レマタイザーを使用すると、パフォーマンスが 20 分の 1 に低下します。どんな助けでも大歓迎です。
python - スペイシー レンマタイザーを使用して単語を基本的な形にする方法
私はスペイシーを初めて使用し、そのレンマタイザー関数を使用したいのですが、基本的な形の単語の文字列を返す単語の文字列のように、それを使用する方法がわかりません。
例:
- '単語' => '単語'
- 「やった」=>「やった」
ありがとうございました。
python - Wordnet Lemmatizer を使用してルート ワードを取得する
キーワード エクストラクタの関連するすべての単語に一致する共通のルート ワードを見つける必要があります。
Python nltk lemmatizer を使用して単語を同じルートに変換する方法は?
- 例えば:
- 一般化、一般化 -> 一般化
- 最適化、最適化 -> 最適化 (おそらく)
- 構成、構成、構成済み -> 構成
python nltk lemmatizer は、品詞 (pos) タグ パラメーターが使用されているが、「一般化」には使用されていない場合に、「一般化」および「一般化」に対して「一般化」を提供します。
これを行う方法はありますか?