改行なしスペース、改行なしハイフンなどの特殊文字を含むドキュメントがあります。この文書を正規化し、これらの特殊文字をスペースに置き換えたいと考えています。また、このドキュメントの内容はさまざまなリソースから収集されているため、さまざまな形式の「イェー」(ی) が含まれており、それらを正規化したいと考えています。
sedコマンドを使用してドキュメント内の Unicode 文字を見つけて置き換えることは可能ですか? 文字の表面形状の代わりに Unicode コードを使用できますか? たとえば、sed コマンドで改行なしスペースの代わりに x00a0 を使用できますか? どのように?
説明が悪くてすみません。ドキュメントが UTF8 でエンコードされており、英語以外の文字が含まれています。たとえば、アラビア語の文書、ウルドゥー語の文書、ペルシア語 (ペルシア語) の文書があります。これらのファイルの一部の文字を別の文字に置き換えたいと思います。正規化するということは、「イェ」のすべての形を 1 つの形に置き換えたいということです。(ご存じかもしれませんが、アラビア語で使用されるこの文字には多くの形式がありますが、単純化といくつかの処理上の問題のために、これらすべての形式を統一したいと考えています。