問題タブ [lemmatization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
31700 参照

r - Rでレンマタイゼーションを実行するには?

この質問は、R または python (am, are, is -> be?) の Lemmatizerの重複の可能性がありますが、前の質問が広すぎると言って閉じられたため、再度追加します。唯一の答えはそうではありません効率的です(これは外部のWebサイトにアクセスするためです。これは、レンマを見つけるための非常に大きなコーパスがあるため、遅すぎます)。したがって、この質問の一部は、上記の質問に似ています。

ウィキペディアによると、見出し語化は次のように定義されています。

言語学における見出し語化 (または見出し語化) は、単語のさまざまな語形変化をグループ化して、1 つの項目として分析できるようにするプロセスです。

R での見出し語化に関する単純な Google 検索は、Rのパッケージのみを指します。見出し語化関数への文字ベクトル入力が になることをwordnet期待してこのパッケージを試したところ、このパッケージはさまざまなフィルターを介した関数に似た機能のみを提供することがわかりました。名前と辞書。c("run", "ran", "running")c("run", "run", "run")grepl

wordnetフィルター名がそれ自体を説明するように、「car」で始まる最大 5 単語を与えるパッケージのコード例:

上記は、私が探している見出し語ではありません。私が探しているのはR、単語の真の語根を見つけたいということです: (たとえば from c("run", "ran", "running")to c("run", "run", "run"))。

0 投票する
1 に答える
133 参照

plugins - GATE の RASP lemmatizer の問題 (Mac を使用)

私は英語の小説を分析して、そこから関連する言語情報を抽出しています。この目的のために、私はGATEを使用しており、レンマタイザーが必要なので、提案されているパイプラインの例の1つでRASPツールを使用しようとしていました:1) RegEx Sentence Splitter 2) RAPS2 Tokenizer 3) RASP2 POS Tagger 4) RASP 2形態学的アナライザー 5) RASP2 パーサー。

デスクトップ Mac (OS X 10.9.4) と最新バージョンの GATE を使用しています。GATE の「Processing Resources」で RegEx Sentence Splitter を読み込むと、問題はありません。しかし、最初の RAPS ツールである RAPS2 Tokenizer をロードしようとすると、「gate.creole.ResourceInstantiationException: java.lang.Exception: Executable /Applications/gate-8.0-build4825-ALL/plugins/Parser_RASP/」というエラー メッセージが表示されます。 resources/tokenise/token.x86_64_mac os x は、gate.Factory.createResource(Factory.java:432) の com.digitalpebble.rasp2.token.RASPTokenizer.init(RASPTokenizer.java:71) に、gate.gui.NewResourceDialog に存在しません$4.run(NewResourceDialog.java:250) at java.lang.Thread.run(Thread.java:745) 原因: java.lang.Exception: Executable /Applications/gate-8.0-build4825-ALL/plugins/Parser_RASP/リソース/トークン化/トークン。

RASP2 Tokenizer は GATE に読み込まれません。

これがなぜなのか教えていただけますか?何が起こっている?どうすれば解決できますか?

0 投票する
0 に答える
236 参照

solr - Solr で翻訳されたテキストにインデックスを付ける

Solr のいくつかの記事を 2 つの言語 (スペイン語とバスク語) で索引付けしています。各言語に 1 つずつ (スペイン語の Lemmatizer SL とバスク語の Lemmatizer BL)、同義語を使用しています。

各テキスト フィールドには 4 つのフィールドがあります。たとえば、私が持っている article_body の場合:

body_S (SL によるインデックスと検索)

body_S2B (SL でインデックス、バスク語に翻訳、BL で検索)

body_B(BLで索引・検索)

body_B2S (BL でインデックス、スペイン語に翻訳、SL で検索)

body_S から body_S2B へ、body_B から body_B2S への copyfield を使用します。検索時に、バスク語で検索すると body_B と body_S2B が検索され、スペイン語で検索すると body_S と body_B2S が検索されます。

私の質問は...私はそれを正しくやっていますか、それとももっと簡単な方法がありますか? ありがとうございました

0 投票する
1 に答える
479 参照

java-7 - Stanford CorpNLP が間違った結果を返す

この質問に続いて、スタンフォードのcorenlpで見出し語化を試みています 。私の環境は: -

私のコードスニペットは次のとおりです:-

私が得る出力は次のとおりです:-

私が期待する場所

教えてください。

0 投票する
1 に答える
321 参照

java-7 - Stanford CorNLP を使用した単語の手動タグ付け

単語の種類を正確に知っているリソースがあります。それらを見出し語にする必要がありますが、正しい結果を得るには、手動でタグ付けする必要があります。単語を手動でタグ付けするためのコードが見つかりませんでした。次のコードを使用していますが、間違った結果を返します。つまり、「ペイント」を期待する「ペイント」の「ペイント」です。

pos のタグ付けが自動的に行われる文ではなく、単語に対して lemmatizer を実行する必要があります。そのため、最初に単語に手動でタグを付けてから、それらの補題を見つけます。いくつかのサンプルコードやいくつかのサイトへの参照を手伝ってください.

0 投票する
2 に答える
4008 参照

nlp - アラビア語の見出し語化とスタンフォード NLP

私は見出し語化を試みます。つまり、見出し語とおそらく動詞のアラビア語語根を特定しようとします。たとえば、次のようになります。 > またね

スタンフォード NLP でそれができると思いますか?

よろしくお願いします、

0 投票する
1 に答える
532 参照

lucene - Java で単語を語幹化して見出し語化する最も軽量なライブラリ

この種のことを達成する必要がある簡単なプロジェクトがあります。

誰かがこれを達成できる最も軽い方法のライブラリを教えてもらえますか? (Lucene、CoreNLP などの lib があることは知っています。)しかし、これらは非常に重いので、ステマー/レンマタイザーが必要なだけです。

ありがとうございました!

0 投票する
3 に答える
7309 参照

scala - Scala と Spark でのテキストの見出し語化の最も簡単な方法

テキスト ファイルでレンマタイゼーションを使用したい:

期待される出力は次のとおりです。

誰でも私を助けることができますか?そして、Scala と Spark で実装されている見出し語化の最も簡単な方法を誰が知っていますか?