文に変換するために特定の URL から記事を取得していますが、テキストの本文にはいくつかの文の間の空白を削除するというランダムな動作があり、次のようになります。
Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.
私のテキストの一部は株式記号 (AZ.GAN) などです。そのため、隣接する空白がないすべてのピリオドの間に単純にスペースを挿入することはできません。
Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.
上記の例では、株式シンボル変数が破棄されます。
誰かがこれの原因を知っているなら興味があります。私はいくつかの HTML と DOM を試しました。Simple_DOM を使用して平文を取得します。ただし、手動で行っても、他の解析エンジンを使用しても同じ結果が得られます。