私は現在、ポルトガルの行政区域と郵便番号に関する情報を含む CSV に取り組んでいますが、ファイルは厳密な形式に従っていません。つまり、文字列全体が大文字である場合があり、その他の問題もあります。
私が解決したい問題は次のとおりです。一部の地域では、削除したい親の管理レベルに関連して、名前の末尾に略語があります。私が見る限り、これはルールです:
- 略語の長さは 3 文字を超えることはありません (これまでは常に 3 文字)。
- 最初の文字は、大文字と小文字を区別しない任意の文字にすることができます。
- 最後の 2 文字は常に子音です (例: Z、B、M、P、..)。
- (編集)略語は常に文字列の最後の単語として発生します。
(編集 2) - 文字列は常にUTF-8
目的は、地域名からこの略語を削除することです。