私は UIMA アーキテクチャーについて理解を深めようとしています。
HTML マークアップで始まるパイプラインを作成したいと考えています。これをプレーンテキストに変換する必要があるため、POS、チャンキング、エンティティ検出などのさまざまなアノテーターで処理できます。ただし、リンクや段落などの元の html タグに対応する領域も追跡したいと考えています。 、em など。基本的には、(html からの) 構造アノテーションと (他のコンポーネントからの) セマンティック アノテーションを一度に利用する最終的なアノテーターが必要です。
したがって、html マークアップを削除し、関心のあるタグを追跡するために注釈を追加するコンポーネントから始めることを想像できます。そのようなコンポーネントは既に存在しますか? 多くの人が欲しがる商品のようです。
ゼロから作成する必要がある場合、それはどのようなコンポーネントですか? SOFA を変更する必要があるため、単なるアノテーターではありません。マークアップをプレーン テキストに置き換える必要があります。
それとも、ドキュメントの新しいビューを作成して、ドキュメントのマークアップ ビューとプレーン テキスト ビューを維持する必要がありますか? マークアップ ビューを二度と気にしないことを考えると、これは奇妙に思えます。また、他のアノテーター (私自身はコーディングしません) がマークアップ ビューではなく、ドキュメントのプレーン テキスト ビューで動作するようにするにはどうすればよいでしょうか?