状況:以前は HTML ドキュメントであったものから抽出された名前付きエンティティを表す文字列のグループがあります。また、元の HTML ドキュメント、NER エンジンに供給されたすべてのマークアップを削除したプレーン テキスト、および削除されたファイル内の文字列のオフセット/長さの両方を持っています。
強調表示された NE のインスタンスを使用して、元の HTML ドキュメントに注釈を付ける必要があります。そのためには、次のことを行う必要があります。
HTML ドキュメントでNE 文字列の開始点/終了点を見つけます。DOM Range Objectになったものがおそらく理想的でしょう。
その Range オブジェクトを指定して、(おそらく のようなものを使用して
<span class="ne-person" data-ne="123">...</span>
) スタイルを範囲に適用します。範囲に複数の DOM 要素 (<a>
、<strong>
など) が含まれないという保証はなく、含まれる各要素内でスパンを正しく開始/停止する必要があるため、これは注意が必要です。
あらゆる解決策 (完全または部分的) を歓迎します。バックエンドは大部分が Python/Django で、フロントエンドは jQuery を使用しています。バックエンドでこれを行いたいのですが、私は何でも受け入れます。
(この質問にタグを付ける方法が少しわかりにくかったので、お気軽にタグを付け直してください。)