私は正規表現が苦手なので、そのことをお詫び申し上げます。また、これを手伝ってくれる人に感謝したいと思います。
次のようなテキストがあります。
real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc...
発生する「ジャンク」テキストのセクションを確認できます。これらは削除したいものです。必ずしも 100% の精度を求めているわけではありませんが、これらのセクションのほとんどを取り除くことができる正規表現が必要です。ジャンク テキストとは、1 つまたは 2 つの文字が 4 つ以上連続して出現し、その後にスペースが続くセクションであると考えています。
タグに記載されているように、私は c# を使用しています。再度、感謝します。