html - プレーンテキストを HTML ドキュメントにマッピングし直す

Question

状況:以前は HTML ドキュメントであったものから抽出された名前付きエンティティを表す文字列のグループがあります。また、元の HTML ドキュメント、NER エンジンに供給されたすべてのマークアップを削除したプレーンテキスト、および削除されたファイル内の文字列のオフセット/長さの両方を持っています。

強調表示された NE のインスタンスを使用して、元の HTML ドキュメントに注釈を付ける必要があります。そのためには、次のことを行う必要があります。

HTML ドキュメントでNE 文字列の開始点/終了点を見つけます。DOM Range Objectになったものがおそらく理想的でしょう。
その Range オブジェクトを指定して、(おそらくのようなものを使用して<span class="ne-person" data-ne="123">...</span>) スタイルを範囲に適用します。範囲に複数の DOM 要素 ( <a>、<strong>など) が含まれないという保証はなく、含まれる各要素内でスパンを正しく開始/停止する必要があるため、これは注意が必要です。

あらゆる解決策 (完全または部分的) を歓迎します。バックエンドは大部分が Python/Django で、フロントエンドは jQuery を使用しています。バックエンドでこれを行いたいのですが、私は何でも受け入れます。

(この質問にタグを付ける方法が少しわかりにくかったので、お気軽にタグを付け直してください。)

score 2 · Accepted Answer

範囲ユーティリティメソッドと、次のいずれかのような注釈ライブラリを使用します。

html - プレーン テキストを HTML ドキュメントにマッピングし直す

2 に答える 2

Related

Reference

html - プレーンテキストを HTML ドキュメントにマッピングし直す