13

次の非構造化テキストには、スタローン、フィラデルフィア、アメリカ独立戦争の3つの異なるテーマがあります。しかし、このコンテンツを個別の段落に分割するためにどのアルゴリズムまたは手法を使用しますか?

この状況では、分類子は機能しません。また、Jaccard類似性アナライザーを使用して連続する文間の距離を見つけ、連続する文が指定された値よりも小さい場合は、連続する文を1つの段落にグループ化しようとしました。より良い方法はありますか?

これは私のテキストサンプルです:

シルベスター・スタレンツィオ・スタローンは、スライ・スタローンの愛称で呼ばれ、アメリカの俳優、映画製作者、脚本家です。スタローンは、彼のマッチョとハリウッドのアクションの役割で知られています。スタローンの映画ロッキーは、国立フィルム登録簿に登録され、その映画の小道具はスミソニアン博物館に置かれました。スタローンがロッキーシリーズのフィラデルフィア美術館の正面玄関を使用したことで、この地域はロッキーステップと呼ばれるようになりました。商業、教育、文化の中心地であるフィラデルフィアは、かつて大英帝国で2番目に大きな都市でした(ロンドンに次ぐ)。 )、および元の13のアメリカの植民地の社会的および地理的中心。それは初期のアメリカの歴史の目玉であり、アメリカ独立戦争と独立を生み出した多くのアイデアと行動のホストでした。アメリカ独立戦争は18世紀後半の政治的混乱であり、北アメリカの13の植民地が一緒になって大英帝国から脱却し、合体してアメリカ合衆国になりました。彼らは最初に、代表なくして海外から彼らを統治するという英国議会の権限を拒否し、次にすべての王室の役人を追放した。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。その後、すべての王室の役人を追放しました。1774年までに、各植民地は、個々の自治植民地を形成するために、植民地議会または同等の政府機関を設立しました。

4

3 に答える 3

20

ですから私は長い間NLPで働いてきましたが、これはあなたが取り組もうとしている非常に難しい問題です。100%の精度でソリューションを実装することは決してできないため、偽陰性の決定(段落のセグメンテーションポイントを見つけられない)または偽陽性の決定(偽のセグメンテーションの挿入)を行う方がよいかどうかを事前に決定する必要があります。ポイント)。それを行ったら、ドキュメントのコーパスを組み立てて、見つけたいと思う本当のセグメンテーションポイントに注釈を付けます。

それが済んだら、EOS(文末)ポイントを見つけるためのメカニズムが必要になります。次に、文のすべてのペアの間に、2つの決定を行う必要があります。段落の境界をここに挿入する必要がありますか?

さまざまなセグメンテーションポイントに基づいて、各段落内の概念のまとまりを測定できます。たとえば、5つの文を持つドキュメント(ABCDE)では、16の異なる方法でセグメント化できます。

ABCDE   ABCD|E   ABC|DE   ABC|D|E   AB|CDE   AB|CD|E   AB|C|DE   AB|C|D|E
A|BCDE  A|BCD|E  A|BC|DE  A|BC|D|E  A|B|CDE  A|B|CD|E  A|B|C|DE  A|B|C|D|E

凝集度を測定するには、文と文の類似性メトリックを使用できます(各文に対して抽出された特徴のコレクションに基づく)。簡単にするために、2つの隣接する文の類似度が0.95の場合、それらを同じ段落に結合するには0.05の「コスト」がかかります。ドキュメントセグメンテーションプランの総コストは、すべての文結合コストの合計です。最終的なセグメンテーションに到達するには、総コストが最も安いプランを選択します。

もちろん、数文を超えるドキュメントの場合、ブルートフォースですべてのコストを評価するには、考えられるセグメンテーションの順列が多すぎます。したがって、プロセスをガイドするためのヒューリスティックが必要になります。ここでは、動的計画法が役立つ可能性があります。

実際の文の特徴抽出に関しては...まあ、それは本当に複雑になるところです。

構文性の高い単語(前置詞、接続詞、助動詞、節マーカーなどの接続詞)を無視し、より意味的に関連性のある単語(名詞と動詞、および程度は少ないが形容詞と副詞)を中心に類似性を確立することをお勧めします。

単純な実装では、各単語のインスタンス数をカウントし、1つの文の単語数を隣接する文の単語数と比較する場合があります。重要な単語(「フィラデルフィア」など)が隣接する2つの文に含まれている場合、それらは高い類似度スコアを取得する可能性があります。

しかし、それに関する問題は、たとえそれらの文が完全に重複しない単語のセットを持っているとしても、2つの隣接する文が非常に類似したトピックを持っているかもしれないということです。

したがって、各単語の「意味」(周囲の文脈を考慮して、その特定の意味)を評価し、その意味を一般化して、より広い領域を包含する必要があります。

たとえば、「緑がかった」という単語が含まれている文をイメージします。特徴抽出プロセスでは、確かに正確な語彙値( "greenish")を含めますが、形態論的変換を適用して、単語をその語根形式( "green")に正規化します。次に、分類法でその単語を検索し、それが色であることを発見します。これは、視覚的な記述子としてさらに一般化できます。したがって、その1つの単語に基づいて、文の特徴のコレクションに4つの異なる特徴( "greenish"、 "green"、 "[color]"、 "[visual]")を追加する場合があります。ドキュメントの次の文が再び「緑」の色を参照している場合、2つの文は非常に似ています。次の文で「赤」という単語が使用されている場合でも、ある程度の類似性はありますが、

したがって、いくつかの基本的な考え方があります。これらの広告を無限に詳しく説明し、特定のデータセットで適切に実行されるようにアルゴリズムを微調整することができます。この問題を攻撃する方法は無数にありますが、これらの提案のいくつかがあなたが始めるのに役立つことを願っています。

于 2010-07-13T19:15:03.697 に答える
3

私はこれについてあまり知らないので、この回答はより良い回答のスタブです。とはいえ、2点

  1. この問題の 1 つの名前はトピックの識別です。http://research.microsoft.com/en-us/um/people/cyl/download/papers/thesis97.pdfは、この分野で頻繁に引用される論文です。
  2. これはおそらく非常に難しいです。あなたが私に言わなかったら、私はフィラデルフィアをアメリカ革命から分離しなかったでしょう.
于 2010-07-13T18:29:10.790 に答える
0

このサンプルでは、​​スペースが続かないピリオドを見つけるのが最善の方法です。

于 2010-07-20T10:09:56.427 に答える