問題タブ [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 動的計画法を使用して文字列を有効な単語の文字列に分割する
この問題を解決するには、動的計画法のアルゴリズムを見つける必要があります。やってみましたがわかりませんでした。問題は次のとおりです。
n 文字の文字列 s[1...n] が与えられます。これは、すべての句読点が消えた破損したテキスト ドキュメントであると考えられます (そのため、「最高の時代だった...」のように見えます)。ブール関数 dict(*) の形式で利用可能な辞書を使用してドキュメントを再構築したい場合、任意の文字列 w に対して、w が有効な単語の場合は dict(w) の値は 1 になり、値は 0 になります。それ以外は。
- 文字列 s[*] を有効な単語のシーケンスとして再構成できるかどうかを決定する動的計画法アルゴリズムを与えてください。dict の各呼び出しに単位時間がかかると仮定すると、実行時間は最大で O(n^2) になります。
- 文字列が有効な場合は、アルゴリズムに対応する一連の単語を出力させます。
php - 文の最初の単語の最初の文字を大文字にする方法は?
ユーザー入力をクリーンアップする関数を作成しようとしています。
完璧にしようとしているわけではありません。段落全体を大文字にするよりも、いくつかの名前と頭字語を小文字にする方がよいでしょう。
関数は正規表現を使用する必要があると思いますが、私は正規表現が苦手で、助けが必要です。
次の式の後に文字が続く場合、その文字を大文字にしたいと思います。
さらに良いことに、関数は「.」、「!」の後にスペースを追加できます。と "?" それらの後に文字が続く場合。
これはどのように達成できますか?
algorithm - DPの漸化式?
有効な単語を含む辞書があるとします。
すべてのスペースが削除された入力文字列が与えられた場合、その文字列が有効な単語で構成されているかどうかを判別します。
ディクショナリはO(1)ルックアップを提供するハッシュテーブルであると想定できます。
このための漸化式を教えてください。私は本の中でこの質問を見つけました、しかし本は答えを与えませんか?
c# - 文の境界でテキストファイルを分割する
テキストファイル(電子書籍)を処理する必要があります。1行に1文になるように処理したいのですが(「改行区切りファイル」ですね)。UNIXユーティリティのsedを使用してこのタスクを実行するにはどうすればよいですか?「単語の境界」の記号のような「文の境界」の記号がありますか(GNUバージョンにはそれがあると思います)。文はピリオド、省略記号、質問、または感嘆符で終わる可能性があることに注意してください。最後の2つを組み合わせて使用します(たとえば、?、!、!?、!!!!!はすべて有効な「文のターミネータ」です)。入力ファイルは、一部の文に削除する必要のある改行が含まれるようにフォーマットされています。
私は次のようなスクリプトについて考えましたs/...|. |[!?]+ |/\n/g
(読みやすくするためにエスケープされていません)。ただし、文の中から改行は削除されません。
C#ではどうですか?sedのように正規表現を使用すると、非常に高速になりますか?(私はそうは思わない)。他にもっと速い方法はありますか?
どちらの方法(sedまたはC#)でも問題ありません。ありがとうございました。
regex - How to get sentence number from input?
It seems hard to detect a sentence boundary in a text. Quotation marks like .!? may be used to delimite sentences but not so accurate as there may be ambiguous words and quotations such as U.S.A or Prof. or Dr. I am studying Tperlregex library and Regular Expression Cookbook by Jan Goyvaerts but I do not know how to write the expression that detects sentence?
What may be comparatively accurate expression using Tperlregex in delphi?
Thanks
algorithm - オープンソースまたは無料で利用できる中国語のセグメンテーション アルゴリズムはありますか?
質問で述べられているように、私は中国語用の無料および/またはオープンソースのテキストセグメンテーションアルゴリズムを探しています。多くのあいまいさが含まれているため、解決するのが非常に難しい作業であることは理解しています。Google の API があることは知っていますが、それはどちらかというとブラック ボックスです。つまり、何をしているのかについての多くの情報が通過していません。
python - 文字列を単語のリストに変換しますか?
Pythonを使用して文字列を単語のリストに変換しようとしています。私は次のようなものを取りたいです:
次に、次のように変換します。
句読点とスペースの省略に注意してください。これについての最速の方法は何ですか?
python - Python: 文の最後の単語を切り捨てますか?
テキストのブロックから最後の単語を切り取る最良の方法は何ですか?
私は考えることができます
- それを(スペースで)リストに分割し、最後の項目を削除してから、リストを再連結します。
- 正規表現を使用して最後の単語を置き換えます。
現在、アプローチ#1を取っていますが、リストを連結する方法がわかりません...
コード例は大歓迎です。
c# - 連続文字列内の単語の解析
単語とスペースのない文字列がある場合、それらの単語を含む辞書/リストがあるとすれば、どのようにそれらの単語を解析する必要がありますか?
たとえば、文字列が「thisisastringwithwords」の場合、辞書を使用して「this is a string with words」という出力を作成するにはどうすればよいでしょうか?
データ構造Triesを使用すると役立つと聞きましたが、誰かが疑似コードを手伝ってくれるとしたら? たとえば、辞書をトライ構造にインデックス付けしてから、各文字をトライに沿って追跡できるのではないかと考えていました。問題は、(疑似)コードでこれを行う方法に慣れていないことです。
python - 正規表現を使用した文の分割
テキスト (SMS) メッセージがほとんどなく、区切り文字としてピリオド ('.') を使用してセグメント化したいと考えています。次の種類のメッセージを処理できません。Python で正規表現を使用してこれらのメッセージをセグメント化するにはどうすればよいですか。
セグメンテーション前:
セグメンテーション後:
各行は個別のメッセージです
更新しました:
私は自然言語処理を行っていますが、同じように扱っ'16.8mmmol/l'
ても大丈夫だと感じています。私には80%の精度で十分ですが、できるだけ 'no of beds 8.2 cups of tea.'
減らしたいと思っています。False Positive