c# - 特殊文字の前の単語のみを取得

Question

医療部門からの「チャンク」文を含むファイルがあります。

文は次のようになります。

" [ADVP 再び/RB] [VP が見られた/VBN] [NP is/VBZ] [NP a/DT 焦点/JJ 非対称/NN ].

「[NP 診断/JJ マンモグラム/NN] [PP of/IN] [NP the/DT left/JJ Breast/NN ].

それらの「チャンク」から単語のみを抽出する方法が必要です。すべての文に共通する規則は、単語が「/」文字の前に来ることです。

POSなしで文字列を取得するためにREGEXなどを組み合わせるオプションはありますか?

ありがとう

score 3 · Accepted Answer

この正規表現のすべての一致を検索します。

\w+(?=/)

RegexPal.comでテストしました。魅力のように働きました。

正規表現は非常に単純です。\w+( ) の後に a が続く単語に一致しますが、一致の部分は/作成しません。/これにより、グループのキャプチャなどを処理する必要がなくなります。これは、との 'followed by' 一致を行います。(?=/)これは、本質的に、直後に/. これは先読みと呼ばれます。

サンプルコードは次のとおりです。

string sentence = "[ADVP again/RB ] [VP seen/VBN ] [NP is/VBZ ] [NP a/DT focal/JJ asymmetry/NN ].";
MatchCollection matches = Regex.Matches(sentence, @"\w+(?=/)");
foreach (Match match in matches)
{
    Console.WriteLine(match.Value);
}

出力：

again
seen
is
a
focal
asymmetry

score 1 · Accepted Answer

これはうまくいくようです：

var patt = @"\s(\b(.+?))/";
var matches = Regex.Matches("[ADVP again/RB ] [VP seen/VBN ] [NP is/VBZ ] [NP a/DT focal/JJ asymmetry/NN ].", patt);

var matchedValues = matches
    .Cast<Match>()
    .Select(match => match.Groups[1].Value);

var output = string.Join(" ", matchedValues);

=> 「再び見られるのは焦点の非対称性です」

score 0 · Accepted Answer

これを試して。

var val = "[ADVP again/RB ] [VP seen/VBN ] [NP is/VBZ ] [NP a/DT focal/JJ asymmetry/NN ]";    
var list = val.Split('/').Select(c => c.Split(' ').Last());

score 0 · Accepted Answer

RegEx マッチングを再度検索しています, see, is, a, symmetry and diagnostic, mammogramm, of, the, left, Breast

右？

次に... /\b([\w]+)// 動作するはずです

c# - 特殊文字の前の単語のみを取得

4 に答える 4

Related

Reference