nlp - どの単語を省略しますか?

Question

2つの文の間の類似度を見つけようとしています。2 つの単語の個々の意味の類似性を利用していることがわかります。しかし、私が持っている文章から作った辞書にはたくさんの単語があります。コンテンツに関する情報を伝えていないと思われるいくつかの単語を文章から削除したいと思います。最初に文字数の少ない単語を削除しましたが、有益な単語も削除されるため、合理的ではないと思います。

ここでいくつかの文の一部を見てください

"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."

これらの単語を含むテキストファイルがあれば、それらを辞書から削除し、有益な単語だけをそこに残します。

あなたが知っている英語の単語のリストはありますか?私の辞書をフィルタリングするために使用できますか?

score 2 · Accepted Answer

この種の問題に対するアプローチの 1 つは、分布の表と裏を取り除くことです。非常に一般的な単語 (ストップワードなど) は、類似性に関する情報をほとんど追加しません。逆に、非常にまれな単語はタイプミスになる傾向があります。一意性のしきい値には注意する必要があります。これは、コーパスの起源と異質性に依存します。ユーザー生成の入力には、Wikipedia などの精選されたソースからのコンテンツよりも多くの一意のタイプミスが含まれる傾向があります。

score 1 · Accepted Answer

利用可能な一般的な「ストップワード」のリストがあります (例:ここ) 。

ストップワードもドメインに多少依存する場合があります。たとえば、米国特許全文データベースでは、明らかに「クレーム」と「実施形態」が非常に一般的であると考えられていますが、これは非特許固有のドキュメントには当てはまらないと思います。

nlp - どの単語を省略しますか?

2 に答える 2

Related

Reference