次の非構造化テキストには、スタローン、フィラデルフィア、アメリカ独立戦争の3つの異なるテーマがあります。しかし、このコンテンツを個別の段落に分割するためにどのアルゴリズムまたは手法を使用しますか?
この状況では、分類子は機能しません。また、Jaccard類似性アナライザーを使用して連続する文間の距離を見つけ、連続する文が指定された値よりも小さい場合は、連続する文を1つの段落にグループ化しようとしました。より良い方法はありますか?
これは私のテキストサンプルです:
シルベスター・スタレンツィオ・スタローンは、スライ・スタローンの愛称で呼ばれ、アメリカの俳優、映画製作者、脚本家です。スタローンは、彼のマッチョとハリウッドのアクションの役割で知られています。スタローンの映画ロッキーは、国立フィルム登録簿に登録され、その映画の小道具はスミソニアン博物館に置かれました。スタローンがロッキーシリーズのフィラデルフィア美術館の正面玄関を使用したことで、この地域はロッキーステップと呼ばれるようになりました。商業、教育、文化の中心地であるフィラデルフィアは、かつて大英帝国で2番目に大きな都市でした(ロンドンに次ぐ)。 )、および元の13のアメリカの植民地の社会的および地理的中心。それは初期のアメリカの歴史の目玉であり、アメリカ独立戦争と独立を生み出した多くのアイデアと行動のホストでした。アメリカ独立戦争は18世紀後半の政治的混乱であり、北アメリカの13の植民地が一緒になって大英帝国から脱却し、合体してアメリカ合衆国になりました。彼らは最初に、代表なくして海外から彼らを統治するという英国議会の権限を拒否し、次にすべての王室の役人を追放した。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。