現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプル コードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。
次のライブラリの助けを借りて、入力からストップワードを削除しました:
from nltk.corpus import stopwords
単語の入力テキストのリストに適用されるバイグラム ロジック
bigram=ngrams(finalList ,2)
入力テキスト: エンド ツー エンドのプロセスを完了しました。
現在の出力: 完了終了、終了終了、終了プロセス。
望ましい出力: エンド ツー エンド、エンド ツー エンドのプロセスを完了します。
つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。