6

ずっと前に NLTK サイトの文の分割セクションをざっと読んだことを覚えています。

「ピリオド」「スペース」を「ピリオド」「手動改行」に大まかなテキスト置換を使用して、Microsoft Word 置換 ( .-> .^p) または Chrome 拡張機能などを使用して、文の分割を実現します。

https://github.com/AhmadHassanAwan/Sentence-Segmentation

https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha

これは、NLTK の Punkt トークナイザーのような NLP メソッドの代わりです。

文章をより簡単に見つけて再読できるように分割します。これは、読解力に役立つ場合があります。

独立節の境界の曖昧さの解消と独立節のセグメンテーションについてはどうですか? これを行おうとするツールはありますか?

以下はテキストの例です。独立節が文の中で識別できる場合、分割があります。文末から始めて、左に移動し、貪欲に分割します。

例えば

の境界の明確化 (SBD) は、文の分割としても知られ、自然言語処理でどこを決定するかを決定する問題です。

文の始まりと終わり。

多くの場合、自然言語処理ツール

いくつかの理由から、入力を文に分割する必要があります。

ただし、句読点があるため、文の境界の識別は困難です。

マークはしばしばあいまいです。

たとえば、ピリオドは

は、略語、小数点、省略記号、または電子メール アドレスを示します。文の終わ​​りではありません。

Wall Street Journal コーパスの期間の約47%

[1] は略語を表します。

同様に、疑問符と感嘆符は

埋め込まれた引用、顔文字、コンピューター コード、およびスラングに表示されます。

別のアプローチは、自動的に

一連のドキュメントから一連の規則を学び、その文は次のようになります。

休憩は事前にマークされています。

日本語や中国語などの言語

明確な文末マーカーを持っています。

標準的な「バニラ」アプローチ

文の終わりを見つける:

(a)もし

それは期間です、

それは文を終わらせます。

(b)上記の 場合

token は私が編集した略語リストにあり、

それは文を終わらせません。

(c)次の 場合

トークンが大文字の場合、

それは文を終わらせます。

これ

戦略は、文章の約 95% を正しくします。[2]

ソリューションは、最大エントロピー モデルに基づいています。[3]

SATZ アーキテクチャでは、ニューラル ネットワークを使用し

文の境界を明確にし、98.5% の精度を達成します。

(ちゃんと分けたかどうかはわかりません。)

独立した句を分割する手段がない場合、このトピックをさらに調査するために使用できる検索用語はありますか?

ありがとう。

4

5 に答える 5

1

Chthonic Project はここでいくつかの良い情報を提供します:

スタンフォードパーサーを使用した条項抽出

答えの一部:

依存関係ではなく、主に構成ベースの解析ツリーを使用する方がよいでしょう。

節はSBARタグによって示されます。これは、(空の可能性がある) 従属接続詞 によって導入される節です。

あなたがする必要があるのは次のことだけです:

  1. 解析ツリーで非ルート節ノードを特定する
  2. これらの節ノードをルートとするサブツリーをメイン ツリーから削除します (ただし、個別に保持します)。
  3. メイン ツリーで (手順 2 でサブツリーを削除した後)、ぶら下がっている前置詞、従属接続詞、および副詞を削除します。

すべてのclausalタグ(および実際にはすべてのPenn Treebankタグ)のリストについては、次のリストを参照してください: http://www.surdeanu.info/mihai/teaching/ista555-fall13/readings/PennTreebankConstituents.html

オンラインの解析ツリーの視覚化については、 オンラインの Berkeley parser demoを使用することをお勧めします。

より良い直感を形成するのに大いに役立ちます。

例文用に生成された画像は次のとおりです。 バークレー パーサー ツリー

于 2015-10-06T20:25:17.433 に答える
0

subreddit /r/LanguageTechnology/ のユーザー YourWelcomeOrMine 経由:

「私なら、スタンフォードの CoreNLP をチェックします。文の分割方法をカスタマイズできると思います。」</p>

于 2014-05-25T20:57:18.597 に答える