問題タブ [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
63 参照

nlp - Snowball Stemming: Null 領域の定義

スノーボール ステミング アルゴリズムを理解しようとしています。HW90にも同様の質問がありましたが、私のものではありません。このアルゴリズムは、次のように定義された 2 つの領域 R1 と R2 を使用しています。

R1 は、母音に続く最初の非母音の後の領域、またはそのような非母音がない場合は単語の末尾のヌル領域です。

R2 は、R1 の母音に続く最初の非母音の後の領域、またはそのような非母音がない場合は単語の末尾のヌル領域です。

http://snowball.tartarus.org/texts/r1r2.html

「単語の最後のヌル領域」とは何かわかりません。誰かその例を教えてください。

0 投票する
1 に答える
84 参照

c# - c#でファイルから読み取った文字列配列の各単語にアクセスして新しいファイルに書き込む方法は?

私のテスターファイルには以下が含まれています:

そして、これはC#のコードです

コードを実行すると、testerfile3 には "agre" のみが含まれます。したがって、ここでの問題は、文字列配列内の各単語を個別に処理することです。つまり、文字列配列へのアクセスに問題があります。文字列配列のすべてのインデックスにアクセスする方法はありますか?

0 投票する
2 に答える
3952 参照

nlp - nltk ステマー: 文字列インデックスが範囲外です

nltk のPorterStemmer. 私のプロジェクトに固有の理由から、django アプリ ビュー内でステミングを実行したいと考えています。

ただし、django ビュー内のドキュメントをステミングすると、文字列IndexError: string index out of rangeから例外が発生します。その結果、以下を実行します。PorterStemmer().stem()'oed'

上記のエラーが発生します:

ここで本当に奇妙なのは、django の外部で同じ文字列に対して同じステマーを実行しても (別の python ファイルまたは対話型の python コンソールであっても)、エラーが発生しないことです。言い換えると:

に続く:

この問題の原因は何ですか?

0 投票する
1 に答える
149 参照

python-2.7 - Python でポーター ステマーとエンコーディングを使用する方法を見つける

ファイルを読み取り、PorterStemmerを使用してファイルのテキストの語幹トークンを保存しようとしたところ、このエラーが発生しました。

それを解決するには、これらの2行をコードに追加してから無視します

しかし、一部のファイルで次のエラーが発生しました。次に、エンコーディングを 'utf-8'I に変更しようとしましたが、同じエラーが発生しました。