テキスト情報を含む200MBの巨大なXMLドキュメントがあります。データは以前、2列のページメーカーファイルに保存されていました。タグ付けした後、特定のテキストにハイフンが含まれていることがわかりました。これは、フォーマットに適合しなかった単語がハイフンで区切られた2つの単語に分割されたためです。また、このXMLドキュメントは別の理由でハイフンを使用しています。短い文を区切る(メモ用)。
単語の間にあるハイフンを見つけたいです。削除を見つけたいハイフンが標準パターンであることに気づきました。例えば。
ハイフンの最初の使用-(私が見つけて置き換えたいもの)
question
だろques-tion
answer
うans-wer
ハイフンの他の使用法は-(見つかりません)
Pattern matchin - Regex Expressions - ...
したがって、両方の標準形式は-
space-space
letter-letter
XQueryを使用してこれらすべてを見つけるにはどうすればよいですか?つまり、2番目のものを見つける方法...または他の方法でそれらを見つける方法...巨大なXMLファイルでこれらを見つけて置き換えるように...私の神..