c# - C#で正規表現を使用してフレーズを単語に分割するにはどうすればよいですか

Question

正規表現を使用して文/フレーズを単語に分割しようとしています。

var phrase = "This isn't a test.";
var words = Regex.Split(phrase, @"\W+").ToList();

単語には「This」、「isn」、「t」、「a」、「test」が含まれます

明らかに、それはアポストロフィを拾い上げ、それを分割しています。この動作を変更できますか? また、さまざまな言語 (スペイン語、フランス語、ロシア語、韓国語など) をサポートする多言語である必要もあります。

単語をスペルチェッカーに渡す必要があります。具体的にはヌンスペル。

return (from word in words let correct = _engine[langId].Spell(word) where !correct select word).ToList();

score 11 · Accepted Answer

スペルチェックの目的で単語に分割したい場合は、これが良い解決策です:

new Regex(@"[^\p{L}]*\p{Z}[^\p{L}]*")

基本的に、以前の正規表現を使用して Regex.Split を使用できます。Unicode 構文を使用するため、いくつかの言語で動作します (ほとんどのアジア言語ではありません)。また、アポストロフィやハイフンで単語を分割することもありません。

score 4 · Accepted Answer

多くの言語が非常に複雑なルールを使用して単語をフレーズや文につなぎ合わせるという事実があるため、単純な正規表現に頼ってテキストからすべての単語を取得することはできません。英語のように「単純な」言語であっても、次のような多くの特殊なケースで実行されます。

中国語と日本語 (とりわけ) は、このように解析するのが難しいことで有名です。これらの言語は単語間にスペースを使用せず、文間にのみスペースを使用するためです。

テキストセグメンテーションについて調べて、セグメンテーションが重要な場合は、テキスト全体を解析できるスペルチェッカーや、言語の規則に従って文を単語に分割できるテキストセグメンテーションエンジンに投資することをお勧めします。

ただし、Google で簡単に検索しても、.NET ベースの多言語セグメンテーションエンジンは見つかりませんでした。ごめん。

score 0 · Accepted Answer

0

これは私のために働いた：[^(\d|\s|\W)]*

于 2013-07-31T16:47:49.397 に答える

score 0 · Accepted Answer

私はJavaの人ではありませんが
、同時にスペースを分割しながら句読点を除外しようとすることができます. このようなものかもしれません。

これらは未加工の拡張された正規表現であり、単語はキャプチャグループ 1 に
あります。グローバル検索を実行します。

Unicode (書記素は考慮されません)

[\s\pP]* ([\pL\pN_-] (?: [\pL\pN_-] | \pP(?=[\pL\pN\pP_-]) )* )

アスキー

[\s[:punct:]]* (\w (?: \w | [[:punct:]](?=[\w[:punct:]]) )* )

8 に答える 8