2

現在、Excelファイルからテキストを読み取り、バイグラムを適用しています。finalListには、以下のサンプル コードで使用されるリストがあり、入力 Excel ファイルから読み込まれた入力単語のリストがあります。

次のライブラリの助けを借りて、入力からストップワードを削除しました:

from nltk.corpus import stopwords

単語の入力テキストのリストに適用されるバイグラム ロジック

bigram=ngrams(finalList ,2)

入力テキスト: エンド ツー エンドのプロセスを完了しました。

現在の出力: 完了終了、終了終了、終了プロセス。

望ましい出力: エンド ツー エンド、エンド ツー エンドのプロセスを完了します。

つまり、(end-to-end) のような単語のグループを 1 つの単語と見なす必要があります。

4

1 に答える 1