2つの文の間の類似度を見つけようとしています。2 つの単語の個々の意味の類似性を利用していることがわかります。しかし、私が持っている文章から作った辞書にはたくさんの単語があります。コンテンツに関する情報を伝えていないと思われるいくつかの単語を文章から削除したいと思います。最初に文字数の少ない単語を削除しましたが、有益な単語も削除されるため、合理的ではないと思います。
ここでいくつかの文の一部を見てください
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
これらの単語を含むテキスト ファイルがあれば、それらを辞書から削除し、有益な単語だけをそこに残します。
あなたが知っている英語の単語のリストはありますか?私の辞書をフィルタリングするために使用できますか?