問題タブ [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
7961 参照

python - テキストを文に分割する

テキストを文章に分割したい。誰か助けてもらえますか?

略語も処理する必要があります。しかし、私の計画はこれらを早い段階で交換することです。氏->ミスター

ありがとう、バリー

編集:最初に、私は上記に含めた4つのテストを満足させたいと思います。これは、正規表現がどのように機能するかをよりよく理解するのに役立ちます。今のところ、テストで定義されているように、文をXなどとして定義できます。

0 投票する
2 に答える
800 参照

python - Unicode文全体を取得する

私は次のようBase: Lote Numero 1, Marcelo T de Alvear 500. Demanda: otras palabras.に文を解析しようとしています。最初にテキストをピリオドで分割し、次にコロンの前にあるものをコロンlabelの後の文のとして使用します。今、私は次の定義を持っています:

valueそして一種の作品ですが、それはユニコード文字(そしてアルファベットにないものは何でも)を落とします、そして私はこれではなく全体の文を持ちたいと思っています: 'value': [(([u'Lote', u'Numero', u'1', ',', u'Marcelo', u'T', u'de', u'Alvear', u'500'], {}), 1)

これに取り組む簡単な方法はありますか?

0 投票する
1 に答える
192 参照

python - 文と章のテキストを区別するための正規表現

多くの文を含む (実行中の) テキストがあります。ピリオド、疑問符、感嘆符で終わる文を抽出できる正規表現があります。文の終わりには、次の文の開始が続く必要があります (空白/タブ/改行と大文字または数字)。データに格納されている文字列を読み取り、正規表現を呼び出します。

略語のケースを考慮しなければ、この正規表現は機能しているようです。テキストには、ピリオドで終わらない章テキストもあるかもしれません。例えば:

これが最初の章です これが
最初の文です。これが 2 番目のセンテンスです。これが4番目に送信されたものです...

私の質問は、章のテキストのみを読み取る正規表現と、文を読み取る正規表現を1つ持つことが可能かどうかです。章は、ピリオドのない行の緩いテキストです。通常の文章は数行にわたる場合があります。つまり、文にはピリオドなしの行にテキストが含まれている場合もあります。2 つの状況 (章と文) を正規表現で区別することは可能ですか?

0 投票する
3 に答える
599 参照

c - 動的メモリを使用して段落を文に変換する

段落を文に変換するにはどうすればよいですか? 次のような関数シグネチャがあります。

その中で:

  • paragraph複数の文を含む文字列です。Paragraph は、各文がピリオド (.) で終わり、段落全体が null ターミネータで終わるようにします。
  • 動的に割り当てられた文の配列を返します。

その場で文の配列にメモリを割り当てる方法について少し混乱しています。

0 投票する
2 に答える
1323 参照

objective-c - 中国語と日本語で CFStringTokenizer を使用するには?

ここのコードを使用して、テキストを個々の単語に分割しています。日本語と中国語を除く、私が試したすべての言語でうまく機能しています。

コードを微調整して、日本語と中国語も適切にトークン化する方法はありますか? ドキュメントには、これらの言語がサポートされていると書かれていますが、適切な場所で単語を分割しているようには見えません。たとえば、「新しい」をトークン化すると、「新し」と「い」の 2 つの単語に分割されます (私は日本語を話せないので、それが実際に正しいかどうかはわかりませんが、私が持っているサンプルは、それらはすべて1つの単語であるべきだと言っています)。また、単語をスキップすることもあります。

kCFStringTokenizerUnitWordBoundary を使用しながら、中国語と日本語のロケールを作成してみました。結果は改善されましたが、私がやっていること (語彙へのハイパーリンクの追加) にはまだ十分ではありません。

利用可能な他のトークナイザーをいくつか知っていますが、コア基盤に固執できるのであれば、むしろそれらを避けたいと思います。

[更新]しばらくの間、日本語用の特定のユーザー辞書で mecab を使用することになりましたが、現在はサーバー側でこれらすべてを行うことに移行しています。完璧ではないかもしれませんが、すべてのプラットフォームで一貫した結果が得られています。

0 投票する
3 に答える
8219 参照

python - Python で段落から文を抽出するための正規表現

Pythonで正規表現を使用して段落から文を抽出しようとしています。
通常、私がテストしているコードは文を正しく抽出しますが、次の段落では文が正しく抽出されません。

段落:

「しかし、マラリア感染症や敗血症の場合、全身の樹状細胞が免疫系に警告することに集中しているため、新たな感染を検出して対応することができなくなります。」新しいタイプのワクチン?

コード:

上記の段落でテストすると、入力段落とまったく同じ出力が得られますが、出力は次のようになります-

しかし、マラリア感染症や敗血症の場合、全身の樹状細胞が免疫系に警告することに集中しているため、新たな感染を検出して対応することができなくなります。

新しいタイプのワクチン

正規表現に問題はありますか?

0 投票する
5 に答える
5208 参照

java - NLPを使用した文の検出

膨大な量のテキストから文章を解析しようとしています。Javaを使用して、OpenNLPやStanford'sParserなどのNLPツールから始めました。

しかし、ここで私は行き詰まります。これらのパーサーはどちらも非常に優れていますが、不均一なテキストになると失敗します。

たとえば、私のテキストでは、ほとんどの文はピリオドで区切られていますが、箇条書きのようにそうでない場合もあります。ここでは、両方の解析が無残に失敗します。

複数の文のターミネータのスタンフォード解析でオプションを設定しようとしましたが、出力はそれほど良くありませんでした!

何か案は??

編集:簡単にするために、区切り文字が改行( "\ n")またはピリオド( "。")のいずれかであるテキストを解析しようとしています...

0 投票する
1 に答える
715 参照

actionscript-3 - 文から最初の単語を除くすべてを削除します

文を取り、最初の単語以外のすべての単語を削除する方法を見つける必要があります。

文が「こんにちは私の名前はディンゴです」の場合、
「こんにちは」という単語だけを取得する必要があります

0 投票する
2 に答える
4876 参照

php - PHPで文の最初の文字を大文字にする方法は?

重複の可能性:
最初の文字を大文字で表示するにはどうすればよいですか?
PHP は、文の最初の単語の最初の文字を大文字にします

文の最初の文字とピリオドの後の文字を大文字にしたい。誰でも方法を提案できますか?

例えば、

次の出力が必要です。

0 投票する
2 に答える
20295 参照

python - Pythonで段落を文で分割する方法

Pythonの段落から文を解析する必要があります。これを行うための既存のパッケージはありますか、それともここで正規表現を使用しようとすべきですか?