45,890.00、1.5v 2,12g などのフォーマットされた Decimal 値を含む文字列があります。さらに、特殊文字、HTML エンティティ (エスケープされたものとエスケープされていないもの) UTF-8 でエンコードされた文字などがすべて 1 行に含まれています。エンティティをクリーンアップすることはできましたが、スペースまたは句読点で分割しても、コンマまたはピリオドで区切られた数値が分割されないようにする方法を考え出すのにまだ苦労しています。
例の文字列:
> String original_str =
> "a,b;c.d+e-f/g\h*i~j=k?l$m 1.5 1,5 1.5v 1,5v 1255,456.78 & 6<7 & 6>5 ق für; {AGB's;} ([für]); ";
期待される出力:
a
b
c
等
1.5
1,5
1.5v
1.5v
1255,456.78
6<7
6>5
〜
毛皮
AGBの
毛皮
数値の形式は次のとおりです。COMMA |で区切られた xx または xxx,xxxx.xxxx,xxxx 。ドット| 混合
文字列からエンティティを消去した後、句読点文字とスペースのリストで分割しようとしましたが、コンマで分割しながら小数のようなキーワード (1,5 1.5v 22,33.66 ..etc) を保持するにはどうすればよいですか?期間?