問題タブ [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3554 参照

python - R または python のレマタイザー (am, are, is -> be?)

私は[コンピューターの]言語学者ではないので、このトピックで夕食のダミーを許してください.

ウィキペディアによると、見出し語化は次のように定義されています。

言語学における見出し語化 (または見出し語化) は、単語のさまざまな語形変化をグループ化して、1 つの項目として分析できるようにするプロセスです。

ここで私の質問は、セット {am, is, are} の任意のメンバーの見出し語化されたバージョンは「be」であるはずですか? そうでない場合、なぜですか?

2 番目の質問: R または Python でそれを取得するにはどうすればよいですか? 私はこのリンクのような方法を試しましたが、それらのどれも「ある」を与えられた「ある」を与えません。少なくともテキスト文書を分類する目的では、これは理にかなっていると思います。

また、ここにあるデモではそれができませんでした。

私は何をしていますか/間違っていると思いますか?

0 投票する
1 に答える
5431 参照

python - wordnetを使用した「さらに」という単語のPython NLTKレンマタイゼーション

私は、Python、NLTK、および WordNetLemmatizer を使用して、レンマタイザーに取り組んでいます。これは、私が期待していたものを出力するランダムなテキストです

出力:'bad'

出力:'worse'

さて、ここではすべて問題ありません。動作は、'better'(不規則な形の場合) または'older'(との同じテストで'elder'は決して出力されないことに注意してください。ただし'old'、wordnet は既存のすべての英単語の完全なリストではないと思います)

私の質問は、次の単語を試したときに発生します'furter'

出力:'further'

出力:'far'

'worse'これは、単語の場合とは正反対の動作です。

誰でも理由を説明できますか? wordnet の synsets データに起因するバグですか、それとも英語の文法に対する私の誤解に起因するものですか?

質問がすでに回答されている場合は申し訳ありませんが、Google と SO で検索しましたが、「さらに」というキーワードを指定すると、この単語の人気のために、関連するものは何も見つかりません...

よろしくお願いします、Romain G.

0 投票する
1 に答える
173 参照

java - 見出し語化 NoSuchMethodError

多くのクラスで構成されるプロジェクトに入れると、Netbeans 8.0 (次のリンクにあります) を使用して Java の見出し語化コードに例外があります。例外は

0 投票する
2 に答える
14146 参照

nlp - トレーニング前のコーパスのword2vec見出し語化

Word2vec は、主に未加工のコーパス データでトレーニングされているようです。ただし、見出し語化は、多くの意味的類似性タスクの標準的な前処理です。word2vec をトレーニングする前にコーパスを見出し語化した経験があるかどうか、またこれが有用な前処理ステップであるかどうか疑問に思っていました。