問題タブ [nltk-book]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 文字間にスペースがある単語の扱いは?
ダリ語で使用nltk.word_tokenize
しています。問題は、1 つの単語の間にスペースがあることです。
たとえば、生命を意味する言葉。そして同じです。他にもたくさんの言葉があります。文字で終わるすべての単語は、スペースを空ける必要があります。それ以外の場合は、 のように組み合わせることができます。 "زنده گی"
"ه"
"زندهگی"
[tag:regex]
ある単語の一部が終わる単語をトークン化しないでください。"ه"
その後、文字が表示されます"گ "
。
python-3.x - ngram を適用する前に入力テキストを理解する最良の方法
現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプル コードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。
次のライブラリの助けを借りて、入力からストップワードを削除しました:
単語の入力テキストのリストに適用されるバイグラム ロジック
入力テキスト: エンド ツー エンドのプロセスを完了しました。
現在の出力: 完了終了、終了終了、終了プロセス。
望ましい出力: エンド ツー エンド、エンド ツー エンドのプロセスを完了します。
つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。