python-3.x - ngram を適用する前に入力テキストを理解する最良の方法

翻译自：https://stackoverflow.com/questions/46640820 2017-10-09T07:25:04.300

240 次

現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプルコードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。

次のライブラリの助けを借りて、入力からストップワードを削除しました:

from nltk.corpus import stopwords

単語の入力テキストのリストに適用されるバイグラムロジック

bigram=ngrams(finalList ,2)

入力テキスト: エンドツーエンドのプロセスを完了しました。

現在の出力: 完了終了、終了終了、終了プロセス。

望ましい出力: エンドツーエンド、エンドツーエンドのプロセスを完了します。

つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。

1 に答える 1