医療部門からの「チャンク」文を含むファイルがあります。
文は次のようになります。
" [ADVP 再び/RB] [VP が見られた/VBN] [NP is/VBZ] [NP a/DT 焦点/JJ 非対称/NN ].
「[NP 診断/JJ マンモグラム/NN] [PP of/IN] [NP the/DT left/JJ Breast/NN ].
それらの「チャンク」から単語のみを抽出する方法が必要です。すべての文に共通する規則は、単語が「/」文字の前に来ることです。
POSなしで文字列を取得するためにREGEXなどを組み合わせるオプションはありますか?
ありがとう