問題タブ [text-segmentation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3487 参照

python - 動的計画法を使用した単語の分割

まず最初に、私は Python を初めて使用するので、ひどいことをしている場合は、この投稿の前に申し訳ありません。私はこの問題を割り当てられました:

次の問題に対する動的プログラミングのソリューションを考案したいと考えています: すべてのスペースが削除された一連の単語である可能性のある文字列があり、もしあれば、スペースを挿入する方法を見つけたいと考えています。有効な英単語を区切ります。たとえば、theyoutheevent は、「the you the vent」、「the Youth event」、または「they out he vent」からのものである可能性があります。入力がイーグルハスランドの場合、そのような方法はありません。あなたの仕事は、次の 2 つの方法で動的計画法のソリューションを実装することです。

  • 反復ボトムアップ バージョン
  • 再帰的記憶版

元の一連の単語には他の句読点 (ピリオドなど)、大文字、固有名詞が含まれていないと仮定します。すべての単語は、提供される辞書ファイルで利用できます。

だから私は2つの主な問題を抱えています:

  1. これは O(N^2) で実行でき、実行する必要があることを知っていますが、私のものはそうではないと思います
  2. ルックアップ テーブルは、時間の複雑さを軽減できると思われるすべての単語を追加していません。

私が欲しいもの:

  1. あらゆる種類の入力 (より良い方法、コードの間違い、ルックアップ テーブルを機能させる方法、ブール値のテーブルを使用して一連の有効な単語を作成する方法)
  2. 再帰バージョンに取り組む方法についていくつかのアイデアがありますが、反復ソリューションを解決できるようになったら、そこから再帰バージョンを設計できると思います。

誰かがこれを与えてくれた時間や努力にいつも感謝しています。

これが私の試みです:

0 投票する
1 に答える
292 参照

uima - uima-text-segmenter の例を実行するには?

uima-text-segmenter https://code.google.com/p/uima-text-segmenter/source/browse/trunk/INSTALL?r=22の API を呼び出して例を実行したいと思います。しかし、API の呼び出し方法がわかりません... readme には、

たとえば、メイン関数で直接実行できるコードを誰かに教えてもらえますか? どうもありがとう!

0 投票する
2 に答える
930 参照

javascript - UAX 29 Unicode テキストセグメンテーションの Javascript 実装?

UAX #29、Unicode Text Segmentationの JavaScript 実装を知っている人はいますか? 特にWord Boundariesに興味があります。

XRegExpに出くわしたときは期待していましたが、 の標準 JavaScript 実装を使用しているようです\b

0 投票する
5 に答える
3895 参照

nlp - 独立節の境界の曖昧さの解消と独立節のセグメンテーション – これを行うツールはありますか?

ずっと前に NLTK サイトの文の分割セクションをざっと読んだことを覚えています。

「ピリオド」「スペース」を「ピリオド」「手動改行」に大まかなテキスト置換を使用して、Microsoft Word 置換 ( .-> .^p) または Chrome 拡張機能などを使用して、文の分割を実現します。

https://github.com/AhmadHassanAwan/Sentence-Segmentation

https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha

これは、NLTK の Punkt トークナイザーのような NLP メソッドの代わりです。

文章をより簡単に見つけて再読できるように分割します。これは、読解力に役立つ場合があります。

独立節の境界の曖昧さの解消と独立節のセグメンテーションについてはどうですか? これを行おうとするツールはありますか?

以下はテキストの例です。独立節が文の中で識別できる場合、分割があります。文末から始めて、左に移動し、貪欲に分割します。

例えば

の境界の明確化 (SBD) は、文の分割としても知られ、自然言語処理でどこを決定するかを決定する問題です。

文の始まりと終わり。

多くの場合、自然言語処理ツール

いくつかの理由から、入力を文に分割する必要があります。

ただし、句読点があるため、文の境界の識別は困難です。

マークはしばしばあいまいです。

たとえば、ピリオドは

は、略語、小数点、省略記号、または電子メール アドレスを示します。文の終わ​​りではありません。

Wall Street Journal コーパスの期間の約47%

[1] は略語を表します。

同様に、疑問符と感嘆符は

埋め込まれた引用、顔文字、コンピューター コード、およびスラングに表示されます。

別のアプローチは、自動的に

一連のドキュメントから一連の規則を学び、その文は次のようになります。

休憩は事前にマークされています。

日本語や中国語などの言語

明確な文末マーカーを持っています。

標準的な「バニラ」アプローチ

文の終わりを見つける:

(a)もし

それは期間です、

それは文を終わらせます。

(b)上記の 場合

token は私が編集した略語リストにあり、

それは文を終わらせません。

(c)次の 場合

トークンが大文字の場合、

それは文を終わらせます。

これ

戦略は、文章の約 95% を正しくします。[2]

ソリューションは、最大エントロピー モデルに基づいています。[3]

SATZ アーキテクチャでは、ニューラル ネットワークを使用し

文の境界を明確にし、98.5% の精度を達成します。

(ちゃんと分けたかどうかはわかりません。)

独立した句を分割する手段がない場合、このトピックをさらに調査するために使用できる検索用語はありますか?

ありがとう。

0 投票する
1 に答える
599 参照

python - python.NLTK (WindowDiff および PK) と python.Segeval (WindowDiff および PK) の比較

Beeferman の PK と WindowDIFF の Python NLTK 実装は、両方の python segeval 実装とは完全に異なる結果を得ています。

同じパラメーターを使用します。

これは、それを使用する人にとって異なる研究結果につながる可能性があります.
これら 2 つの実装で PK の結果が異なるのはなぜですか? PK の結果は 1 つだけである必要があります。

0 投票する
4 に答える
1916 参照

javascript - javascript: 段落内の文を選択

テキスト注釈ツールを作成したい。下の図のようにいくつかのテキストが表示されているとします。客観的な効果は次のとおりです。ユーザーがテキストのどこかをクリックすると、文全体が自動的に選択されて強調表示されます。

ここに画像の説明を入力

その効果を達成する方法がわかりません。この問題を解決できるコードまたはリソースを教えてもらえますか?

ありがとう!

0 投票する
3 に答える
806 参照

java - 段落から文を削除する

段落から文全体を削除するコードを作成しようとしています。どの文であるかは問題ではありませんが、少なくとも 1 つの文である必要があります。

これは私が現在持っているコードです。現在、私が始めたのとまったく同じ文字列を印刷しています。アイデアはありますか?

編集:文を削除する必要があることを示唆するのは間違っていました。私は最初の文以外の文を意味しました。削除する文は文字列の途中に配置し、実際のアプリケーションは非常に大きな文字列で使用することをお勧めします。