問題タブ [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1014 参照

javascript - 段落を文に分割する

段落が与えられたら、それを文に分割したいと思います。現時点では、私は単にこれをやっています:

ほとんどの場合は機能しますが、次のような文が与えられると失敗し始めます。

アラスカはアメリカ最大の州

ピリオドがあるためU.S.、構文解析しSて文になります。

段落内の文を決定する最良の方法は何ですか? 大文字の前の最後のピリオドに基づいてそれらを解析することを考えましたが、段落が適切に入力されていない場合 (ピリオドの後の小文字) も失敗します。

0 投票する
2 に答える
2989 参照

java - 段落をタイトルと数字で文に分割する

Java で BreakIterator クラスを使用して、段落を文に分割しています。これは私のコードです:

問題は、段落にタイトルや数字が含まれている場合です。たとえば、次のようになります。

「1,200行のコードを書くことで問題を解決しようとしているロバーツ教授。」

私のコードが生成するものは次のとおりです。

タイトルと数字のピリオドのため、1 つの文ではなく。

Javaでタイトルと数字を処理するためにこれを修正する方法はありますか?

0 投票する
2 に答える
5438 参照

java - 正規表現はテキストドキュメントを文に分割します

大きなテキスト文字列があり、「. ? !」に基づいて文に分割しようとしています。しかし、私の正規表現はどういうわけか機能していません。誰かがエラーを検出するように案内してくれますか?

しかし、それは文を分割していません。誰かがエラーを検出できますか?

0 投票する
1 に答える
726 参照

python - 正規表現との文の一致

特定の形式ではなく、多くの行に分割されたテキストがあります。だから私はline.strip('\n')各行のためにすることにしました。.次に、次のことを考慮して、文の終了マーカーを使用してテキストを文に分割したいと思います。

  1. ピリオド.の後に\s(空白)、\S(のような" ')が続き、その後に続くピリオド[A-Z]は分割されます
  2. 割れない[0-9]\.[A-Za-z]ように1.stackoverflow real time solution

私のプログラムは、\s と [AZ] が続く 1 - ピリオド (.) の半分しか解決しません。以下はコードです:

お願い!正規表現をマスターするための最良の方法はどれか知りたいです。ややこしいようです。

0 投票する
2 に答える
535 参照

regex - 複数段落のドキュメントを段落番号付きの文に分割する

適切に解析された複数段落のドキュメント ( \n\nで区切られたすべての段落と "." で区切られた文) のリストがあり、それらを複数の文に分割したいと考えています。資料。たとえば、(2 段落) 入力は次のとおりです。

理想的には、出力は次のようになります。

ドキュメントを文に分割できる Perl の Lingua::Sentences パッケージに精通しています。ただし、段落番号付けとは互換性がありません。そのため、上記を実現する別の方法があるかどうか疑問に思っています (ドキュメントには略語が含まれていません)。どんな助けでも大歓迎です。ありがとう!

0 投票する
1 に答える
1810 参照

php - 段落内の文の最初の文字を大文字にする

WordPress と WP-O-Matic を使用して、さまざまなフィードからコンテンツを自動的に取得しています。内容はすべて大文字で、WordPress ブログの投稿はくだらないものに見えます。さまざまな手法を試してみましたが、どれも完璧に機能していないようです。

ここに私が試したいくつかの例があります:
php で文の最初の文字を大文字にする
方法 文の最初の単語の最初の文字を大文字にする方法?

現在、このコードを使用していますが、本来のように機能しません。

問題は、このコードがすべての<p></p>タグを削除して、投稿全体が 1 つの段落のように見えることです。

これが私がする必要があることです:
サンプル入力:

期待される出力:

助けてください

0 投票する
3 に答える
5896 参照

python - 2単語を含む文を抽出するPython

このリンクPython 抽出文を含む wordで説明したのと同じ問題がありますが、違いは、同じ文で 2 つの単語を見つけたいということです。2 つの特定の単語を含むコーパスから文を抽出する必要があります。誰か助けてくれませんか?