各サンプルが改行で区切られている、さまざまな長さのテキストのテスト サンプルを作成しています。現在、改行なしでスペースのみの 3 MB 以上のテキスト ファイルがあります。改行が単語を半分に分割していないことを確認するために、適切な reg 式の助けを期待していました。
私は正規表現の使用に非常に慣れていません。しかし、300文字の長さの行の場合、次の球場のどこかにあると想定しました。
/.{300,}\s+/&\n/g
(申し訳ありませんが、これが機能しないことはわかっています!)
注:この件に関して同様の投稿があることは知っていますが、このシナリオに具体的に対処するものは何もないと確信しています。
更新:解決しました!このコマンドで作業しました: perl -lpe's/\b(.{80,300})\b/\1\n/g' file