問題タブ [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1582 参照

python - verb.exc が正しい値を追加した場合でも、NLTK 見出し語化の出力が間違っているのはなぜですか?

verb.exc を開くと、

コードで見出し語化を使用している間

これはどのように起こりますか?wordNet の改訂で誤解していませんか?

0 投票する
1 に答える
1984 参照

python - NLTK WordNet Lemmatizer - 不明な単語を削除するには?

ツイートで NLTK WordNet Lemmatizer を使用しようとしています。

WordNet にないすべての単語 (Twitter ハンドルなど) を削除したいのですが、WordNetLemmatizer.lemmatize() からのフィードバックはありません。単語が見つからない場合は、単語をそのまま返します。

WordNet で単語が見つかったかどうかを確認する方法はありますか?

または、文字列から「適切な英単語」以外のものを削除するより良い方法はありますか?

0 投票する
1 に答える
297 参照

java - JAVAの辞書なしで英語のLemmatizer?

ルセンベースの検索で単語を検索していますが、「食べる」、「食べる」などの文字列を Java で「食べる」に変換したいと考えています。検索して解決策として見出し語化を見つけましたが、私が遭遇したすべての英語の見出し語化ツールは単語リストまたは辞書検索を使用しています。辞書検索を回避し、高効率をもたらすレンマタイザーはありますか? ルールに基づくレンマタイザーである可能性があります。はい、私は「ステマー」を探していません。またはルート/元の単語を取得する方法はありますか(ライブラリ、アルゴリズム、アプローチなどを使用する準備ができていることは重要ではありません)。

0 投票する
2 に答える
11587 参照

python - 単語リストの見出し語化

だから私はテキストファイルに単語のリストを持っています。それらに対して見出し語化を実行して、同じ意味で時制が異なる単語を削除したいと考えています。try、tried などのように、これを行うと、 TypeError: unhashable type: 'list' のようなエラーが発生し続けます

すでにトークンになっている単語を見出し語にするにはどうすればよいですか?

0 投票する
0 に答える
185 参照

java - レンマを指定して形態学的バリエーションを取得する方法 (Java 推奨)

現在、Stanford Core NLP を使用して、テキストから単語の補題を取得しています。スタンフォードスイート内でこれを「逆に」実行する方法はありますか? たとえば、補題 "come" があり、動名詞形 ('VBG' POS タグ) "coming" を取得したいとします。

これがスタンフォード スイートで利用できない場合、これを実現できる別の Java ツールを推奨できる人はいますか?

0 投票する
1 に答える
124 参照

regex - AWK - 文法形式の形成

タブで区切られた 2 つのファイルがあります。1 つは見出し語と語幹を含み、もう 1 つは文法形式を形成するために必要なものです。

ファイル (レンマとステム):

ファイル (サフィックス):

従うべきルールと出力:

つまり、括弧内に文字が 1 つしか見つからない場合は、補題の最後の子音を選択して語幹に追加します。括弧内に 2 つの文字が見つかった場合は、最後の子音を 2 倍して語幹に追加します。括弧内の文字の後に続くものも追加します。

子音を二重にする表:

最後に、私は自分で問題を解決しました。OPに役立つ場合の解決策を示します。

0 投票する
0 に答える
40 参照

python - TypeError: 'instancemethod' オブジェクトには NLTK の属性 '__getitem__' がありません

これらのコードを NLTK で実行しようとしています:

そして、エラーが判明しました:

何が問題で、これを修正する方法は? ありがとうございました!