問題タブ [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - nltk と wordnet を使用して複数名詞を見出し語化する
を使用してレンマライズしたい
問題は、POS タガーが「プロカスパーゼ」が「NNS」であることを取得することですが、レンマタイザーの後でも「プロカスパーゼ」はそのまま「プロカスパーゼS」のままであるため、NNS をワードネットに変換するにはどうすればよいかということです。
java - MorphaStemmer Lemminizer の問題
MorphaStemmer 1.5 を使用して単数形の単語を取得しています。しかし、ここではすべての単語に語幹ベースを与えています。たとえば、ボウリングを検索すると、ボウルが表示されます。led を使用すると、リードが与えられます。多くの単語を試してみましたが、うまく機能します。これを制限し、単数形の場合にのみ変換する必要があります。それ以外の場合は同じものを返しますか? 複数形のみの場合は、基本形に変換する必要があります。
ヘルプはありますか?
solr - Solr クエリを実行する前に検索語を変更する
このプラグインがインデックス時に行うのと同じように (条件付き copyField の実装) https://wiki.apache.org/solr/UpdateRequestProcessor クエリ時に同じことをしたいと思います。
このプラグインを使用してテキストを一度見出し語化し、見出し語化したテキストを別のフィールドにコピーしました。
クエリ時に同じことをしたいのですが、方法がわかりません(または、これを見つけたほど簡単ではありません)。
だから私が欲しいのは、ユーザーが X を検索する場合、プラグインでこれを行うことです: y = process_text(y) そして、タイトルと本文があると仮定すると、この検索を行います: title:y body:y または、別の元のテキストが必要な場合があります。 field title:y body:y otherfield:x クエリ用語を変更する例はありますか? 皆さん、ありがとうございました
私はそれをよりよく説明するつもりです。
これらのフィールドがあります:text_en、text_en2de、text_de、text_de2en
英語、ドイツ語のテキストのレンマタイザーを作成しました。レンマタイザーは、テキストをレンマタイズするのに時間がかかります。
クエリ時に、私が言ったプラグインを使用し、テキストを 1 回だけレンマタイズします。次に、見出し語化されたテキストがそれらのフィールドにコピーされます。
しかし、text_en、text_de2enで検索する必要がある場合...フィールドごとに1回見出し語化する必要があり、時間がかかりました。
そのため、クエリ時にプラグインを作成して q フィールドを取得し、テキストを見出し語化し、この見出し語化されたテキストを必要なフィールドにリダイレクトしたいと考えています。
たとえば、カスタム SearchHandler を作成する場合 (これを行う必要があると思いますが、例が見つかりませんでした)、それを構成します
次に、q="running" のような検索を行うと、プラグインはこのテキストを取得して検索を行います
python - POS タグ付けおよびレマタイザー用の多言語 NLTK
最近、私は NLP に取り組み、テキストの分析にNLTKとTextBlobを使用しようとしました。旅行者のレビューを分析するアプリを開発したいので、さまざまな言語で書かれた多くのテキストを管理する必要があります。POS タグ付けと見出し語化という 2 つの主な操作を行う必要があります。NLTK では、次のように文のトークン化に適切な言語を選択できる可能性があることを確認しました。
POS Tagging と Lemmatizer の言語を異なる言語で設定する正しい方法をまだ見つけていません。イタリア語、フランス語、スペイン語、ドイツ語などの英語以外のテキストに正しいコーパス/辞書を設定するにはどうすればよいですか? 「TreeBank」または「WordNet」モジュールをインポートする可能性があることもわかりましたが、それらをどのように使用できるかわかりません。それ以外の場合、それぞれのコーパスはどこにありますか?
アドバイスや参考にさせていただけませんか?私は NLTK の専門家ではないことに注意してください。
どうもありがとう。
nlp - POS タグ付け後に単語を見出し語化すると、予期しない結果が生じる
nltk pos_tag 関数と WordNetLemmatizer で python3.5 を使用しています。私の目標は、データベース内の単語を平坦化してテキストを分類することです。lemmatizer を使用してテストしようとしていますが、同一のトークンで POS タガーを使用すると、奇妙な動作が発生します。以下の例では、3 つの文字列のリストがあり、それらを POS タガーで実行すると、他のすべての要素が名詞 (NN) として返され、残りは動詞 (VBG) として返されます。
これは見出し語化に影響します。出力は次のようになります。
同一の文字列のリストにさらに要素を追加すると、この同じパターンが続きます。私が使用している完全なコードは次のとおりです。
python-2.7 - NLTK 見出し語化の間違った結果
NLTK を使用しましたが、次のような間違った結果が得られました。
答えは魚ではなく「コード」だと思います。とにかくこれを解決する方法はありますか、または他のpython Libがより良い仕事をすることができますか?
java - 見出し語化アラビア語テキストの実行方法
アラビア語の生のテキストで見出し語化を実行するにはどうすればよいですか?
私はスタンフォードの nlp jar に精通しています。( http://nlp.stanford.edu/projects/arabic.shtml )
残念ながら、これは適切な見出し語化を提供しません。