4

英語のテキストのブロックがある場合、「the、it、or、we、us」などのすべての「フィラー」単語をクリアするための最良の方法は何ですか...実行可能な単語のみを考慮に入れますテキストの本当の、コア、コンテンツ?

キーワード構成の類似性に基づいて、テキストのブロックを自動的に結び付ける方法をブレインストーミングしています。

私はこれを最初に想像することはできません。これをC#を使用して実現できる一般的で効果的な方法はありますか?

アップデート

私は基本的に、1つのテキストブロックをn個の「関連する」テキストブロックにリンクしようとしています。ここで、主要な「コンテンツ」は非常に類似しているため、関連するテキストへの追加情報と見なすことができます。

4

3 に答える 3

5

これはストップ ワードと呼ばれ、通常はデータを理解するのに必須ではなく、インデクサーによって削除される単語です。

私が知っているほとんどすべての情報検索システムは、これらの単語をフィルタリングするトークナイザーを実装しています。

私はあなたのためにそれを行うStandardAnalyzerを備えたJavaのluceneに精通していますが、このアナライザーもlucene.netに存在すると仮定します-追跡して使用することをお勧めします。

たとえば、EnglishAnalyzer によってluceneで行われるステミングにも興味があるかもしれません。


(1) 通常はなぜ?たとえば、皮肉のディタクターでは、良い結果を得るにはストップ ワードが重要であるように (経験的に) 思われます。

于 2012-06-21T10:55:11.573 に答える
3

これを大規模に行いたい場合、およびフィルター ワードがコンスタントに増加する場合は、openNLP のような NLP を使用できます

前置詞、接続子などを削除するために使用できます...

于 2012-06-21T10:54:51.960 に答える
2

「フィラーワード」のリストを作成します。元のテキスト ブロックのこのリスト内に出現するすべての要素を String.Empty に置き換えます。

List<string> を使用した文字列置換

于 2012-06-21T10:48:43.380 に答える