特定の部分を抽出したいテキスト データのリストがあります。現在、正規表現を使用して必要なデータを抽出していますが、各レコードがわずかに異なるため、非常に複雑になり始めています。いくつかの典型的な例に基づいて、Rapidminer を使用して正規表現を「学習」する方法はありますか?
たとえば、次の各レコードについて、テキストを 2 つの新しい属性に抽出したいと考えてい24
ます18
。
word 24 on line 18
Wrd 24 of Ln 18
Line 18, Word 24
Word 24 comes after word 22 on line 18 (not line 19)
私はすべてのテキスト処理ビデオを見てきましたが、この種のことを行う方法を示しているものはなく、どこから始めればよいのか本当にわかりません. 手動で正規表現を作成する以外に、これを行う方法を提案できる人はいますか?