問題タブ [nltk-book]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

44 問題

0 投票する

1 に答える

358 参照

python - 文字間にスペースがある単語の扱いは？

ダリ語で使用nltk.word_tokenizeしています。問題は、1 つの単語の間にスペースがあることです。たとえば、生命を意味する言葉。そして同じです。他にもたくさんの言葉があります。文字で終わるすべての単語は、スペースを空ける必要があります。それ以外の場合は、のように組み合わせることができます。
"زنده گی""ه""زندهگی"

[tag:regex]ある単語の一部が終わる単語をトークン化しないでください。"ه"その後、文字が表示されます"گ "。

2017-09-20T09:29:45.773

0 投票する

1 に答える

240 参照

python-3.x - ngram を適用する前に入力テキストを理解する最良の方法

現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプルコードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。

次のライブラリの助けを借りて、入力からストップワードを削除しました:

単語の入力テキストのリストに適用されるバイグラムロジック

入力テキスト: エンドツーエンドのプロセスを完了しました。

現在の出力: 完了終了、終了終了、終了プロセス。

望ましい出力: エンドツーエンド、エンドツーエンドのプロセスを完了します。

つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。

python-3.x pandas nlp nltk nltk-book

2017-10-09T07:25:04.300

1 2 3 4 5 6 7 8 9 10

問題タブ [nltk-book]

python - 文字間にスペースがある単語の扱いは？

python-3.x - ngram を適用する前に入力テキストを理解する最良の方法

Reference