問題タブ [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
372 参照

regex - 文の最後の単語で列を分割

YARQ (さらに別の正規表現の質問)。

最後の列に文の最後の単語が含まれ、最初の列に他のすべてが含まれていることを確認して、次の列を 2 つの列に分割するにはどうすればよいでしょうか。

私が終わるように:

0 投票する
3 に答える
3020 参照

perl - Perl を使用して段落を文に変換する

私はPerlプログラミングをしています。段落を読んで、各文を行として出力する必要があります。

誰でもそれを行う方法を知っていますか?

以下は私のコードです:

0 投票する
2 に答える
7707 参照

php - regexp と PHP を使用して段落を文に分割する

私は正規表現初心者で、段落を文に分割しようとしています。私の言語では、文の途中でかなりの数の省略形 (例: bl.a.) を使用するため、私がする必要があるのは句読点を探すことであり、その後に 1 つの句が続くという結論に達しました。スペースに続いて、次のような大文字で始まる単語:

したがって、次のような段落:

この出力で終了する必要があります。

これではありません:

これの最初の部分を肯定的な後読み機能で行うソリューションを見つけました。

その後

これは素晴らしい出発点ですが、省略形が多いために何度も分割されます。

私はこれをやろうとしました:

いずれかのすべての出現をターゲットにする

スペースと大文字が続きますが、うまくいきませんでした。

私がやろうとしていることを達成する方法があるかどうか、誰かが知っていますか?

0 投票する
7 に答える
32613 参照

python - 単語を含むPython抽出文

テキストから指定された単語を含むすべての文を抽出しようとしています。

しかし、それは私を返しています:

それ以外の :

何か助けてください?

0 投票する
3 に答える
6373 参照

java - ユーザーが入力した文から各単語の母音を検索する (java)

次の出力を与えるプログラムがあります。

文を入力してください: 私はJavaが初めてです

午前

新着

ジャワ

母音の数: I am new to java = 6

私の問題は、ユーザーが入力した文の各単語の母音を取得する必要があることです。

たとえば、出力は次のようになります。

文を入力してください: 私はJavaが初めてです

私 (1)

午前 (1)

新しい (1)

(1)へ

ジャワ (2)

母音の数: I am new to java = 6

.split() を使用して、入力された文を区切り、母音チェックのために /.charAT ステートメントを切り替えます。

誰かがこの結果を達成するのを手伝ってくれませんか?

0 投票する
5 に答える
4178 参照

c# - 文字列内の単一の単語の一致によって文全体を抽出する方法は?

そのため、文字列全体 (約 10k 文字) を取得し、その文字列内の単語 (または多くの単語) を検索しています。とregex(word).Matches(scrappedstring)

しかし、その単語を含む文全体を抽出する方法。最初のドット/感嘆符/疑問符/などまで、検索された単語の後に部分文字列を取得することを考えていました. しかし、検索された単語の前の文の一部を取得するにはどうすればよいでしょうか?

それとも、より良いロジックがありますか?

0 投票する
2 に答える
4734 参照

vba - MS WordのVBAが段落内のすべての文をループしない

Word 文書内のすべての文をループして、セミ HTML コードに解析しようとしています。テスト中に、閉じられていない文が続く文がスキップされるという興味深い状況に遭遇しました。たとえば、次の 2 つの文があるとします。

これは特殊文字を含む段落の最初の文であり、もう 1 つの文が必要です。これは、そこにあるはずの 2 番目の文です。**

paragraph.range.sentences の各文をループすると、最初の文と段落の末尾の ".**" のみが取得されます。ただし、ピリオドとアスタリスクの間にスペースを追加すると、コードは ". **" で動作します。

ピリオドの後にスペースがなくても、マクロが文のすべてのテキストを読み取るようにするにはどうすればよいですか? 私のコード例は次のとおりです。

0 投票する
4 に答える
4415 参照

python - テキストのセグメンテーション: 入力を辞書の最長の単語と照合するアルゴリズム

各単語が辞書から取得されるように、文字列を単語に分割する必要があります。また、左から可能な限り長い単語が選択されていることを確認してください。したがって

文字列の末尾から、可能な限り長い単語に一致する先頭までトラバースすることで、この問題を解決することができました。しかし、問題はこれらの問題のために私たちを切り取り始めました..

エラーが発生する前に見つかった有効なセグメントを削除することで、この問題を解決しようとしました。

それらを辞書から一度削除してから、問題を解決します。そう

したがって、私もこの問題を解決することができました。しかし、私はこれを解決することができません

私の解決策は、辞書から「として」を削除し、それを解決しようとします

新しい再帰呼び出しでは、「as」が辞書から削除されているためです。私が書いた関数はこのリンクにあります。誰かがそれを調べて、これを解決するためのより良いアルゴリズムを見つけるのを手伝ってくれることを願っています。それ以外の場合は、既存のアルゴリズムの変更を提案してください。