4

私は UIMA アーキテクチャーについて理解を深めようとしています。

HTML マークアップで始まるパイプラインを作成したいと考えています。これをプレーンテキストに変換する必要があるため、POS、チャンキング、エンティティ検出などのさまざまなアノテーターで処理できます。ただし、リンクや段落などの元の html タグに対応する領域も追跡したいと考えています。 、em など。基本的には、(html からの) 構造アノテーションと (他のコンポーネントからの) セマンティック アノテーションを一度に利用する最終的なアノテーターが必要です。

したがって、html マークアップを削除し、関心のあるタグを追跡するために注釈を追加するコンポーネントから始めることを想像できます。そのようなコンポーネントは既に存在しますか? 多くの人が欲しがる商品のようです。

ゼロから作成する必要がある場合、それはどのようなコンポーネントですか? SOFA を変更する必要があるため、単なるアノテーターではありません。マークアップをプレーン テキストに置き換える必要があります。

それとも、ドキュメントの新しいビューを作成して、ドキュメントのマークアップ ビューとプレーン テキスト ビューを維持する必要がありますか? マークアップ ビューを二度と気にしないことを考えると、これは奇妙に思えます。また、他のアノテーター (私自身はコーディングしません) がマークアップ ビューではなく、ドキュメントのプレーン テキスト ビューで動作するようにするにはどうすればよいでしょうか?

4

2 に答える 2

1

UIMA Rutaには、このタスク用の分析エンジンがいくつか用意されています。HtmlAnnotatorは、さまざまなタグの html テキストに注釈を作成しますHtmlConverterは、html のテキストのみを含む新しいビューを作成できますが、タグに対応する注釈が含まれています改行などを処理するための構成パラメーターがいくつかあります。パイプラインでソファ マッピングを使用せずにさらに処理するために、新しいプレーン テキスト ビューを新しいファイルの _initalView にコピーできる ViewWriter があります。

免責事項: 私は UIMA Ruta の開発者です

于 2014-04-03T12:43:34.190 に答える
1

マークアップの複雑さに応じて、Apache Tika を使用する人もいれば、Boilerpipe を使用する人もいます。

これは、UIMA で Boilerpipe を使用したいと考えていたが、オフセットを HTML に戻して保持したかったために問題が発生したというブログ投稿です。

これは、tika を呼び出す UIMA アノテーターです。

于 2012-06-19T00:26:42.760 に答える