問題タブ [nltk-book]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
358 参照

python - 文字間にスペースがある単語の扱いは?

ダリ語で使用nltk.word_tokenizeしています。問題は、1 つの単語の間にスペースがあることです。 たとえば、生命を意味する言葉。そして同じです。他にもたくさんの言葉があります。文字で終わるすべての単語は、スペースを空ける必要があります。それ以外の場合は、 のように組み合わせることができます。
"زنده گی""ه""زندهگی"

[tag:regex]ある単語の一部が終わる単語をトークン化しないでください。"ه"その後、文字が表示されます"گ "

0 投票する
1 に答える
240 参照

python-3.x - ngram を適用する前に入力テキストを理解する最良の方法

現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプル コードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。

次のライブラリの助けを借りて、入力からストップワードを削除しました:

単語の入力テキストのリストに適用されるバイグラム ロジック

入力テキスト: エンド ツー エンドのプロセスを完了しました。

現在の出力: 完了終了、終了終了、終了プロセス。

望ましい出力: エンド ツー エンド、エンド ツー エンドのプロセスを完了します。

つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。