問題タブ [text-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 文の境界を見つける Java ライブラリ
文の境界の検索を処理する Java ライブラリを知っている人はいますか? 私は、言語が使用できるすべての文末記号を知っているスマートな StringTokenizer 実装になると考えています。
BreakIterator での私の経験は次のとおりです。
ここで例を使用すると、次の日本語があります。
アスキーでは、次のようになります。
私が変更したサンプルの部分は次のとおりです。
境界インデックスを見ると、次のように表示されます。
しかし、これらのインデックスは文末に対応していません。
python - 文字列をリストに分割する方法は?
Python関数で文(入力)を分割し、各単語をリストに格納したいと思います。私の現在のコードは文を分割しますが、単語をリストとして保存しません。それ、どうやったら出来るの?
text - テキスト境界分析のリソース
プロジェクトで「テキスト境界分析」を行う必要があります。
この仕事をするのに役立つかもしれないGoogleのリソースがあることを覚えていますが、名前やダウンロード先はよく覚えていません。
このリソースは、Google 検索からの集合統計データであることを覚えています。検索エンジンで人々がキーワードとして使用した多くの単語が含まれている可能性があります。(実際、この記事についてはかなり前に読んだので、そのリソースに何が含まれているかはわかりませんが、このリソースはテキストの境界を見つけるのに使用できると確信しています。)
誰かそれについて知っていますか?
ところで、テキスト境界の分析に役立つ他のリソースはありますか?
(Alex Martelli: ICU と Java を試しましたが、東洋言語の単語を見つけることができませんでした。)
(dwc : どうもありがとう、これは役に立つかもしれません。)
dynamic - 動的計画法を使用した単語セグメンテーションのアルゴリズムの例を知っている人はいますか?
Googleで単語のセグメンテーションを検索しても、それについての適切な説明は実際にはありません.動的プログラミングアルゴリズムが文字列のセグメンテーションを個々の単語に見つけるために必要なプロセスを完全に理解しようとしています. 単語のセグメンテーションの問題について適切に説明されている場所を知っている人はいますか、または説明できる人はいますか?
単語のセグメンテーションは、基本的に文字列を取得し、知らなかった場合に単語に分割する場所を決定するだけであり、動的プログラミングを使用すると、ある程度の副問題が考慮されます。これは再帰を使用して行うのは非常に簡単ですが、このオンラインの反復アルゴリズムの説明だけでもオンラインで見つけることができなかったので、誰かが例を持っているか、素晴らしいアルゴリズムを提供できれば.
助けてくれてありがとう。
c# - C# を使用して文字列内の文をフォーマットする
複数の文を含む文字列があります。すべての文の最初の単語の最初の文字を大文字にする方法. Word の段落書式のようなもの。
例 ."これはコードです。コードは C# です。" 出力は、"これはコードです。コードは C# です" である必要があります。
1 つの方法は、「.」に基づいて文字列を分割することです。最初の文字を大文字にしてから、再び結合します。
より良い解決策はありますか?
php - 段落を文に分割する方法
私は使用しようとしてきました:
ただし、Dr.、USAなどでは機能しません。
誰にもより良い提案がありますか?
testing - テストケースを書くためにラテン語で使用できるセグメンテーションのルールは何ですか?
ラテン語ベースの言語のセグメンテーション ロジックのテスト ケースを作成する必要があります。多くのサイト、セグメンテーションロジックのルールに関するドキュメントを見つけたというwrtは、1つのリンク「http://www.lisa.org/fileadmin/standards/srx20.pdf」を取得したことに関連していますが、これを使用したくありません. 現在、すべてのラテン語をサポートできる、より関連性の高いセグメンテーション ルールを探しています。句読点、ピリオド、コンマ、およびラテン語ベースの言語で使用されるその他の記号などのすべての可能性は、セグメンテーション後にこれらのセグメンテーション ルールを使用してテストできますか?
期待していただきありがとうございます、Manjushree
jquery - jQuery を使用して長い文章を強調表示する
ページ上の段落オブジェクトの配列に含まれる長い文 (たとえば、50 語以上) を強調表示したいと思います$("#content p")
。これに対処する方法がわかりません。
最初はすべての文を強調表示しようとしましたが、HTML タグが含まれていると問題が発生しました (ネット上の強調表示コードの例は、個々の単語のみのようで、子ノードは考慮されていません)。文を分割するのが難しいことは承知しています。使いたい.!? スペースの後に大文字が続くか、何もない (つまり、段落の終わり) かのいずれかです。
ヘルプ/アドバイスをお寄せいただきありがとうございます。
php - PHPで文の最初の単語を取得するにはどうすればよいですか?
文字列から変数の最初の単語を抽出したいと思います。たとえば、次の入力を取ります。
結果の出力はTest
、入力の最初の単語である、である必要があります。これどうやってするの?