問題タブ [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
5826 参照

python - Pythonで辞書検索を使用して単語をスペースで修正しますか?

ドキュメントから文のリストを抽出しました。この文のリストを前処理して、より意味のあるものにしています。次の問題に直面しています

のような文があります。"more recen t ly the develop ment, wh ich is a po ten t "

このような文章を辞書を引いて直したいのですが?不要なスペースを削除します。

最終的な出力は"more recently the development, which is a potent "

これは、テキストの前処理における単純な作業だと思いますか? そのようなアプローチを探すには、いくつかの指針が必要です。ありがとう。

0 投票する
1 に答える
844 参照

javascript - JS/Jquery:辞書と最長一致を使用した文字列から単語へのテキストセグメンテーションスクリプト?

次のような文字列が与えられた場合:

次のような辞書からの単語のリストによって支援されます。

str単語に分割するには?

この文字列には、識別する単語が 3 つあります。しかし、落とし穴を避ける必要があります。ほとんどの場合、それらを避けるために、文の左側を攻撃して、可能な限り長い単語を見つけようとすることができることを私は知っています. 見つかったら、残りの文字列などを攻撃できます。

下 : 入力、考えられる落とし穴、および必要な出力 (右下)。

最後に、取得したいのは次のとおりです。

0 投票する
1 に答える
393 参照

c++ - 段落からの文抽出

1つを使用strtokすると、パラの各トークンを個別に取得できます。

ページ内のすべての文を個別にキャプチャして、個別に処理したいと考えています。

解決策の 1 つは、for ループを保持して各文字をチェックすることです。そうであれば、.文が完成したと見なして、何らかのデータ構造に格納します。I dont know which data structure is best suitable to store this. 配列かベクトルか?

これを行うために利用できる他のより良い方法またはいくつかのC++クラスはありますか?

アップデート

後で、文中の否定に対してアクションを実行したいと思います。not、、、などのキーワードnoを考えるという意味です。+のnope場合、それを +ve 単語と見なします。notnegative word

0 投票する
7 に答える
10847 参照

c - Cの段落の文の数を数える

コースの一環として、Turbo C を使用して C を学習する必要があります (残念ながら)。

私たちの先生は、段落内の文字、単語、文の数を数えるコードを作成するように私たちに求めました (printf、getch()、および while ループのみを使用します..彼はまだ他のコマンドを使用することを望んでいません)。 . ここに私が書いたコードがあります:

それは機能します(少なくとも文字数と単語数を数えます)。しかし、コードをコンパイルしてコンソール ウィンドウでチェックアウトすると、プログラムの実行を停止できません。エンターキーを入力するとすぐに終了するはずです。何故ですか?