c# - 「フィラー」単語の既知のリスト。C＃を使用して良いキーワードをリッピングする方法は？

Question

英語のテキストのブロックがある場合、「the、it、or、we、us」などのすべての「フィラー」単語をクリアするための最良の方法は何ですか...実行可能な単語のみを考慮に入れますテキストの本当の、コア、コンテンツ？

キーワード構成の類似性に基づいて、テキストのブロックを自動的に結び付ける方法をブレインストーミングしています。

私はこれを最初に想像することはできません。これをC＃を使用して実現できる一般的で効果的な方法はありますか？

アップデート

私は基本的に、1つのテキストブロックをn個の「関連する」テキストブロックにリンクしようとしています。ここで、主要な「コンテンツ」は非常に類似しているため、関連するテキストへの追加情報と見なすことができます。

score 5 · Accepted Answer

これはストップワードと呼ばれ、通常はデータを理解するのに必須ではなく、インデクサーによって削除される^{単語です。}

私が知っているほとんどすべての情報検索システムは、これらの単語をフィルタリングするトークナイザーを実装しています。

私はあなたのためにそれを行うStandardAnalyzerを備えたJavaのluceneに精通していますが、このアナライザーもlucene.netに存在すると仮定します-追跡して使用することをお勧めします。

(1) 通常はなぜ？たとえば、皮肉のディタクターでは、良い結果を得るにはストップワードが重要であるように (経験的に) 思われます。

score 3 · Accepted Answer

これを大規模に行いたい場合、およびフィルターワードがコンスタントに増加する場合は、openNLP のような NLP を使用できます。

前置詞、接続子などを削除するために使用できます...

score 2 · Accepted Answer

「フィラーワード」のリストを作成します。元のテキストブロックのこのリスト内に出現するすべての要素を String.Empty に置き換えます。

3 に答える 3