Common Crawl (WET
形式) のテキストを処理していますが、見たところ、多くの壊れた句読点があります。これは、元のデータから改行が削除されたことが原因である可能性が最も高いです。
たとえば、 ではThis Massive Rally?The 52
、疑問符とThe
をスペースで区切る必要があります。次の正規表現(Java)でこの問題を修正しようとしました:
line.replaceAll("([.;:,!?)])([A-Z])", "$1 $2");
ほとんどのケースを適切に処理しますが、 U.S.
bebesU. S.
やbecome など、すべきではない場所にスペースを追加します。www.HiringJobTweets.com
www. HiringJobTweets.com
望ましくない副作用を回避しながら問題を解決する方法はありますか?