問題タブ [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - OpenSource Java レンマタイザー
オープンソースのJava実装レマタイザーを知っているかどうか尋ねたいと思います。または、オープンソースでない場合は、少なくとも、ライセンス料を支払うことなく使用できる Java 実装のレンマタイザー。
php - 意味の異なる一般的な単語の一致を回避するステミング
私は現在、派生語を識別するために PorterStemmer を使用しています。しかし、同じ意味を持っていないように見える単語の問題に直面しています。例:
Market
and Marketing
Wine
and Winning
etc..
は意味が異なりますが、PorterStemmer はそれらを同じものとして識別します。
このような問題を解決できるオープン ツールはどれですか? コーナーケース付きの辞書?より高度なステマー?
できれば、PHP から簡単にアクセスできるもの。
c++ - NLP: lemmaGen c++ による見出し語化
チャットボットを拡張しており、入力文から単語の補題を見つけたいと考えています。チャットボットは C++ で作成されており、LemmaGen と呼ばれる無料のオープン ソースの見出し語化ツールを見つけました。C++ のバージョン 2.2 をダウンロードしましたが、参照方法や使用方法に関するドキュメントはありません。
過去に c++ の LemmaGen を使用した経験のある人はいますか? どんな情報も役に立ちます。どうもありがとう
r - Wordnetを使用してRで見出し語化を行う方法は?
R で Wordnet の getLemma 関数を使用してコーパスを見出し語化したいのですが、その使用方法がよくわかりません。
これは、R で wordnet パッケージを使用した見出し語化に関するドキュメントです。
私の質問は、5000 語を含むドキュメントがあり、この場合、各単語をそのベース/ルート ワードに変換したいということです。例: 熱 --> 熱 ; 熱中症→熱中症
コーパス内のすべての単語を見出し語化したいのですが、StartingWith... という単語に制限したくありません。数字の 5 の意味もわかりませんterms <- getIndexTerms("NOUN", 5, filter)
誰かが私のためにこれを解決できれば素晴らしいことです。
ありがとう
r - R の Wordnet Lemmatizer
レマタイザーを使用しwordnet
て単語をレンマタイズしたいと思いますa
コーパスに変換a
し、前処理手順 (ストップワードの削除、見出し語化など) を行います。
以下の方法で見出し語化を行いたかったのですが、
しかし、私はこのエラーが発生します
私のアイデアは、単一の単語ではなく、コーパス全体を見出し語にすることです。どうすれば達成できますか?
installation - TreeTagger のインストールは成功しましたが、.par ファイルを開けません
このファイル読み取りエラーを解決する方法を知っている人はいますか?これは、文のタグ付け、見出し語化、およびチャンクにTreeTagger
使用される一般的な自然言語処理ツールです。POS
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/installation-hints.txtで示唆されているように、インストールに関する問題は発生しませんでした。Web ページの指示に従いましたが、適切にインストールされています ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/#Linux ):
しかし、ソフトウェアをテストしようとすると、次のエラーが発生します。
python - Python でのワードネットの見出し語化と pos タグ付け
Python で wordnet lemmatizer を使用したかったのですが、デフォルトの pos タグが NOUN であり、pos タグが明示的に VERB として指定されていない限り、動詞の正しい見出し語が出力されないことがわかりました。
私の質問は、上記の見出し語化を正確に実行するためのベストショットは何ですか?
を使用して投稿タグ付けをnltk.pos_tag
行いましたが、ツリーバンクの投稿タグをワードネット互換の投稿タグに統合することに迷っています。助けてください
NN、JJ、VB、RB で出力タグを取得します。これらをワードネット互換のタグに変更するにはどうすればよいですか?
また、タグ付けされたコーパスを使用してトレーニングnltk.pos_tag()
する必要がありますか?それとも、データで直接使用して評価できますか?
nlp - scikit-learn で n グラムをカウントするときの同形異義語の処理
テキスト内の n-gram をカウントするために TfIdfVectorizer を使用していますが、最初にそれを見出し語化する必要があります。1 つの書体が異なる補題に対応する場合があるため、それらすべてをカウントする必要があります。scikit-learn コンテキスト内でどのように処理できますか? アナライザーを作成して TfIdfVectorizer に渡す必要がありますか? それはどのように機能しますか?