問題タブ [word-boundary]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - .Contains()の代わりにC#の単語境界正規表現が必要
私はリストを持っています:
私は文字列を持っています:
myList
内の単語の一致数を取得しようとしていますmyString
。現在、.Contains()
「アルフレッド」の「赤」を拾っているので、3カウントを使用しています。代わりに単語を分離できるようにする必要があります。これはどのように達成できますか?
c# - 単語境界の正規表現の問題 (重複)
次のコードがあるとします。
これらはすべて文字列m
に含まれているため、 の結果を含めたいのですが、取得しているのは. オーバーラップを含めるにはどうすればよいですか?"red shirt", "blue", "red"
"red shirt", "blue"
javascript - 単語境界と比較した、正規表現(\ B)の非単語境界とは何ですか?
単語境界と比較した、正規表現(\ B)の非単語境界とは何ですか?
python - クメール語を分割するための実行可能なソリューション?
私は、クメール語 (カンボジア語) の長い行を個々の単語 (UTF-8) に分割するソリューションに取り組んでいます。クメール語では単語間にスペースを使用しません。そこにはいくつかの解決策がありますが、それらは十分ではなく (こことここ)、それらのプロジェクトは途中で失敗しました。
分割する必要があるクメール語のサンプル行を次に示します (これよりも長くなる可能性があります)。
ចូរសរសើរដល់ទ្រង់ដល់ទ្រង់ដែលបានប្រទានប្រទានការនោះទាំងអស់អ្នកដោយដោយព្រោះអង្គហើយហើយអ្នកមិនអាចមិនអាចការ
クメール語の単語を分割する実行可能なソリューションを作成するという目標は 2 つあります。クメール語の従来の (非 Unicode) フォントを使用していたユーザーが Unicode に変換することを奨励し (多くの利点があります)、従来のクメール語フォントをインポートできるようにすることです。 Unicode に変換して、スペル チェックですばやく使用できるようにします (大きなドキュメントでは非常に長い時間がかかる手動で単語を調べて分割するのではなく)。
100% の精度は必要ありませんが、速度は重要です (特に、クメール語に分割する必要がある行はかなり長くなる可能性があるため)。私は提案を受け入れますが、現在、正しく分割された (改行なしのスペースで) クメール語の大きなコーパスがあり、単語確率辞書ファイル (frequency.csv) を作成して、ワードスプリッター。
Viterbi アルゴリズムを使用するこのpython コードを見つけました。おそらく高速に実行されます。
また、このページの作成者のソース Java コードを使用してみました:テキスト セグメンテーション: 辞書ベースの単語分割ですが、速度が遅すぎて役に立ちませんでした (私の単語確率辞書には 10 万以上の用語があるため...)。
そして、スペース/結合された単語を含まないテキストから最も可能性の高い単語を検出するからのpythonの別のオプションがあります:
私はPythonに関しては初心者であり、(Webサイト以外の)すべての実際のプログラミングに本当に慣れていないので、ご容赦ください。うまくいくと思うオプションを持っている人はいますか?
javascript - Javascript の単語境界が先頭または末尾と一致しません
このコードで予期しない結果が得られます:
null
これが「foo」を返すのに、なぜこれが返されるのですか?
単語境界マーカーも先頭と末尾に一致しませんか?
編集:変数を挿入しているため、正規表現自体を文字列にする必要があります。
regex - アンカー否定と文字列の一致のための正規表現
特定の文字列の前にスペースを追加しようとしています(
たとえば
) 、正規
Token
表現を別の正規表現に置き換えます:somethingToken
something Token
something Token
something Token_
something Token
スペース以外の文字とトークンに一致する正規表現を見つけるのに苦労していますが、一致にスペース以外の文字を含めることはできません(そうしないと、同様に置き換えられます)。(失敗した) 試みは、\b
アンカー (単語の先頭に一致する必要があります) を否定しようとすることでしたが、アンカーを否定できるかどうかわかりません。これに関するヘルプをいただければ幸いです。ありがとう。
regex - OracleREGEXP_LIKEと単語の境界
単語の境界をREGEXP_LIKEと一致させるのに問題があります。次のクエリは、期待どおりに1つの行を返します。
しかし、私は単語の境界でも一致させたいです。したがって、「\ b」文字を追加すると、このクエリが得られます
これを実行すると、ゼロ行が返されます。何か案は?
javascript - Unicode 文字列の単語境界を検索するための Javascript 正規表現
日本語の文字列 (例: "私はマーケットに行きました。") の単語境界を JavaScript 正規表現 ("xregexp" JS ライブラリ キャブを使用) で見つけるソリューションはありますか?
例えば:
日本語の文字列にも同じロジックが必要です。
javascript - 正規表現: 単語の先頭にポンド記号
ポンド記号で始まる単語を見つけようとしています。Javascript。
それでも、単語の境界は # 記号には適用されないようです。それは出力します:
また、置換パターン "<#$1>" に # 記号を再度追加する必要があることに少し混乱しています。これは、アルゴリズムが処理中にそれを削除するように見えるためです。
regex - 山かっこが境界に隣接している場合の正規表現の単語境界の問題
正規表現:
文字列の例:
症状と<の境界という単語が見つからない理由がわかりません。>とtienenの間の反対側にも同じ問題が存在します
この境界をより適切に一致させる方法についての提案はありますか?
次の入力を行うと、正規表現は期待どおりに一致します。
エッジ条件を削除する\b\bPHRASE\b
は単語の一部と一致できないため、オプションではありません
アップデート
これでうまくいきました:( Igor、Mosty、DK、NickCに感謝します)
境界のマッチングを改善し、[\s\.\?\!]
これらのエッジをポジティブな先読みと後読みに一致させる必要がありました。