HTML ドキュメント内のテキストの一部にタグを付ける必要があります。ただし、ほとんどの場合、日付、会社名、住所などの形式のテキストで構成されています。CRF (sklearn-crfsuite) を使用する予定です。
私の問題は、データセットを文に分割するのが難しいことです。すべてを単一のシーケンスとして扱い、文の境界なしで CRF モデルをトレーニングできますか? CRFSuite または sklearn-crfsuite のチュートリアルでは、これについて説明していません。
文の分割なしではできない場合、そのようなテキストを文に分割する方法についてのヒントはありますか?