search - HTML ドキュメント内のスニペットを一致させる

Question

誰かが、長い HTML 文書を作成するためのコピー編集の非常に大きなリストを提示してくれました。編集の形式は次のとおりです。

"religious" は "religions" である
べきです "their" は "there" である
べきです

コピー編集は手で入力されました。場合によっては、左側の「実際の」値がドキュメントのコンテンツと完全に一致しないことがあります。通常、編集の順序は正しいですが、それも保証されません。

これらの編集を手動でドキュメントに適用するのは簡単ですが、非常に大きな作業です。スニペットを自動的に検索するなど、プロセスを可能な限り自動化したいと考えています。

このような長いドキュメントでは、「their」のすべてのインスタンスを検索して「there」に置き換えることはできません。ある特定の例ではなく、「彼らの」が正しく使用されることもありました。

言い換えれば、編集の順序が検索に影響するあいまいテキスト一致を探しています。

このような問題への良いアプローチは何ですか? あいまいな順序でスニペットを検索できる既製のオープンソースプロジェクトがあることを願っています。

score 1 · Accepted Answer

私はどのツールも認識していません。ただし、両方に編集距離を使用します。

完全一致でない文字列の場合: おそらく std. レベンスタイン+ スワップ (つまり、ダメラウ - レベンスタイン距離)
完全ではないシーケンス一致の場合: 今回はおそらく Match および Swap 操作のみです。無料 (無料) の Insert を使用して、編集してはならない単語を取得できます。

実装するのは難しくありません。しかし、計算の複雑さは非常に高くなります。いくつかのヒューリスティックを使用して、絶望的な一致をスキップします。ドキュメントと編集リスト内の単語を前処理するのは良いことかもしれません: 完全な編集距離を計算する前にすばやく比較できるように、単語ごとに一連の文字を取得するなど)。

search - HTML ドキュメント内のスニペットを一致させる

1 に答える 1

Related

Reference