ずっと前に NLTK サイトの文の分割セクションをざっと読んだことを覚えています。
「ピリオド」「スペース」を「ピリオド」「手動改行」に大まかなテキスト置換を使用して、Microsoft Word 置換 ( .
-> .^p
) または Chrome 拡張機能などを使用して、文の分割を実現します。
https://github.com/AhmadHassanAwan/Sentence-Segmentation
https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha
これは、NLTK の Punkt トークナイザーのような NLP メソッドの代わりです。
文章をより簡単に見つけて再読できるように分割します。これは、読解力に役立つ場合があります。
独立節の境界の曖昧さの解消と独立節のセグメンテーションについてはどうですか? これを行おうとするツールはありますか?
以下はテキストの例です。独立節が文の中で識別できる場合、分割があります。文末から始めて、左に移動し、貪欲に分割します。
例えば
文の境界の明確化 (SBD) は、文の分割としても知られ、自然言語処理でどこを決定するかを決定する問題です。
文の始まりと終わり。
多くの場合、自然言語処理ツール
いくつかの理由から、入力を文に分割する必要があります。
ただし、句読点があるため、文の境界の識別は困難です。
マークはしばしばあいまいです。
たとえば、ピリオドは
は、略語、小数点、省略記号、または電子メール アドレスを示します。文の終わりではありません。
Wall Street Journal コーパスの期間の約47%
[1] は略語を表します。
同様に、疑問符と感嘆符は
埋め込まれた引用、顔文字、コンピューター コード、およびスラングに表示されます。
別のアプローチは、自動的に
一連のドキュメントから一連の規則を学び、その文は次のようになります。
休憩は事前にマークされています。
日本語や中国語などの言語
明確な文末マーカーを持っています。
標準的な「バニラ」アプローチ
文の終わりを見つける:
(a)もし
それは期間です、
それは文を終わらせます。
(b)上記の 場合
token は私が編集した略語リストにあり、
それは文を終わらせません。
(c)次の 場合
トークンが大文字の場合、
それは文を終わらせます。
これ
戦略は、文章の約 95% を正しくします。[2]
ソリューションは、最大エントロピー モデルに基づいています。[3]
SATZ アーキテクチャでは、ニューラル ネットワークを使用して
文の境界を明確にし、98.5% の精度を達成します。
(ちゃんと分けたかどうかはわかりません。)
独立した句を分割する手段がない場合、このトピックをさらに調査するために使用できる検索用語はありますか?
ありがとう。