“word-boundary”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

1847 参照

c# - .Contains（）の代わりにC＃の単語境界正規表現が必要

私はリストを持っています：

私は文字列を持っています：

myList内の単語の一致数を取得しようとしていますmyString。現在、.Contains()「アルフレッド」の「赤」を拾っているので、3カウントを使用しています。代わりに単語を分離できるようにする必要があります。これはどのように達成できますか？

c#asp.net regex linq word-boundary

2010-10-20T19:05:58.790

0 投票する

1 に答える

278 参照

c# - 単語境界の正規表現の問題 (重複)

次のコードがあるとします。

これらはすべて文字列mに含まれているため、の結果を含めたいのですが、取得しているのは. オーバーラップを含めるにはどうすればよいですか?"red shirt", "blue", "red""red shirt", "blue"

c#asp.net regex word-boundary

2010-10-22T14:48:10.317

0 投票する

2 に答える

14514 参照

javascript - 単語境界と比較した、正規表現（\ B）の非単語境界とは何ですか？

単語境界と比較した、正規表現（\ B）の非単語境界とは何ですか？

javascript regex word-boundary boundary word-boundaries

2010-12-27T20:25:31.470

0 投票する

3 に答える

2350 参照

python - クメール語を分割するための実行可能なソリューション?

私は、クメール語 (カンボジア語) の長い行を個々の単語 (UTF-8) に分割するソリューションに取り組んでいます。クメール語では単語間にスペースを使用しません。そこにはいくつかの解決策がありますが、それらは十分ではなく (こことここ)、それらのプロジェクトは途中で失敗しました。

分割する必要があるクメール語のサンプル行を次に示します (これよりも長くなる可能性があります)。

ចូរសរសើរដល់ទ្រង់ដល់ទ្រង់ដែលបានប្រទានប្រទានការនោះទាំងអស់អ្នកដោយដោយព្រោះអង្គហើយហើយអ្នកមិនអាចមិនអាចការ

クメール語の単語を分割する実行可能なソリューションを作成するという目標は 2 つあります。クメール語の従来の (非 Unicode) フォントを使用していたユーザーが Unicode に変換することを奨励し (多くの利点があります)、従来のクメール語フォントをインポートできるようにすることです。 Unicode に変換して、スペルチェックですばやく使用できるようにします (大きなドキュメントでは非常に長い時間がかかる手動で単語を調べて分割するのではなく)。

100% の精度は必要ありませんが、速度は重要です (特に、クメール語に分割する必要がある行はかなり長くなる可能性があるため)。私は提案を受け入れますが、現在、正しく分割された (改行なしのスペースで) クメール語の大きなコーパスがあり、単語確率辞書ファイル (frequency.csv) を作成して、ワードスプリッター。

Viterbi アルゴリズムを使用するこのpython コードを見つけました。おそらく高速に実行されます。

また、このページの作成者のソース Java コードを使用してみました:テキストセグメンテーション: 辞書ベースの単語分割ですが、速度が遅すぎて役に立ちませんでした (私の単語確率辞書には 10 万以上の用語があるため...)。

そして、スペース/結合された単語を含まないテキストから最も可能性の高い単語を検出するからのpythonの別のオプションがあります：

私はPythonに関しては初心者であり、（Webサイト以外の）すべての実際のプログラミングに本当に慣れていないので、ご容赦ください。うまくいくと思うオプションを持っている人はいますか?

python nlp word-boundary text-segmentation southeast-asian-languages

2011-02-01T10:48:50.680

0 投票する

2 に答える

3187 参照

javascript - Javascript の単語境界が先頭または末尾と一致しません

このコードで予期しない結果が得られます:

nullこれが「foo」を返すのに、なぜこれが返されるのですか?

単語境界マーカーも先頭と末尾に一致しませんか?

編集:変数を挿入しているため、正規表現自体を文字列にする必要があります。

javascript regex word-boundary

2011-02-17T02:57:48.363

0 投票する

3 に答える

1108 参照

regex - アンカー否定と文字列の一致のための正規表現

特定の文字列の前にスペースを追加しようとしています( たとえば ) 、正規 Token表現を別の正規表現に置き換えます:somethingTokensomething Tokensomething Tokensomething Token_something Token

スペース以外の文字とトークンに一致する正規表現を見つけるのに苦労していますが、一致にスペース以外の文字を含めることはできません(そうしないと、同様に置き換えられます)。(失敗した) 試みは、\bアンカー (単語の先頭に一致する必要があります) を否定しようとすることでしたが、アンカーを否定できるかどうかわかりません。これに関するヘルプをいただければ幸いです。ありがとう。

regex anchor matching word-boundary

2011-06-14T21:24:39.177

0 投票する

3 に答える

35600 参照

regex - OracleREGEXP_LIKEと単語の境界

単語の境界をREGEXP_LIKEと一致させるのに問題があります。次のクエリは、期待どおりに1つの行を返します。

しかし、私は単語の境界でも一致させたいです。したがって、「\ b」文字を追加すると、このクエリが得られます

これを実行すると、ゼロ行が返されます。何か案は？

regex oracle word-boundary

2011-09-27T10:32:49.407

0 投票する

2 に答える

1945 参照

javascript - Unicode 文字列の単語境界を検索するための Javascript 正規表現

日本語の文字列 (例: "私はマーケットに行きました。") の単語境界を JavaScript 正規表現 ("xregexp" JS ライブラリキャブを使用) で見つけるソリューションはありますか?

例えば：

日本語の文字列にも同じロジックが必要です。

javascript regex unicode word-boundary xregexp

2011-10-28T09:49:14.050

0 投票する

2 に答える

1594 参照

javascript - 正規表現: 単語の先頭にポンド記号

ポンド記号で始まる単語を見つけようとしています。Javascript。

それでも、単語の境界は # 記号には適用されないようです。それは出力します：

また、置換パターン "<#$1>" に # 記号を再度追加する必要があることに少し混乱しています。これは、アルゴリズムが処理中にそれを削除するように見えるためです。

javascript regex word-boundary

2011-12-11T23:27:10.963

0 投票する

2 に答える

2077 参照

regex - 山かっこが境界に隣接している場合の正規表現の単語境界の問題

正規表現：

文字列の例：

症状と<の境界という単語が見つからない理由がわかりません。>とtienenの間の反対側にも同じ問題が存在します

この境界をより適切に一致させる方法についての提案はありますか？

次の入力を行うと、正規表現は期待どおりに一致します。

エッジ条件を削除する\b\bPHRASE\bは単語の一部と一致できないため、オプションではありません

アップデート

これでうまくいきました:( Igor、Mosty、DK、NickCに感謝します）

境界のマッチングを改善し、[\s\.\?\!]これらのエッジをポジティブな先読みと後読みに一致させる必要がありました。

regex word-boundary

2012-01-31T21:53:51.973

問題タブ [word-boundary]

Reference