問題タブ [string-matching]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - TrieではなくDAWGでAho-Corasickを使用する
TrieではなくDAWG(Directed Acyclic Word Graph)で使用されるようにAho-Corasick文字列マッチングアルゴリズムを変更できるかどうか誰かが知っていますか?
python - 'lol'を'lolllll'に、'omg'を'omggg'に一致させる正規表現など
ねえ、私は正規表現が大好きですが、私はそれらがまったく得意ではありません。
lol、omg、lmao...などの約400の短縮語のリストがあります。誰かがこれらの短縮された単語の1つを入力するときはいつでも、それはその英語の対応する単語に置き換えられます([笑い]、またはその趣旨の何か)。とにかく、人々は迷惑で、最後の文字をx回繰り返してこれらの速記語を入力します。
例:omg-> omgggg、lol-> lollll、haha-> hahahaha、lol-> lololol
誰かがこれに対処するために正規表現(できればPythonで)を私に渡してくれるかどうか疑問に思っていましたか?
皆さんありがとう。
(これは、興味があればトピックを特定するためのTwitter関連のプロジェクトです。誰かが「フープを撃ちに行こう」とツイートした場合、そのツイートがバスケットボールなどに関するものであることをどのように知っていますか)
python - Pythonで正規表現を使用して部分文字列インデックスを見つける方法はありますか?
部分文字列のインデックス位置を見つけたいのですが、部分文字列は長くて表現するのが難しいです(複数行、そしてそれをエスケープする必要があります)ので、正規表現を使用してそれらを一致させ、部分文字列のインデックス、次のような関数を返しますstr.find または str.rfind 、これに関するパッケージのヘルプはありますか?
python - 2つのワイルドカード文字列を一致させるエレガントな方法
私は2つの異なるソースからいくつかのテキストをOCRしています。彼らはそれぞれ、文字/文字のグループを認識しないさまざまな場所で間違いを犯す可能性があります。彼らが何かを認識しない場合、それは?に置き換えられます。たとえば、単語がである場合、Roflcopter
あるソースはを返しRo?copter
、別のソースはを返す可能性がありRoflcop?er
ます。2つの一致が同等であるかどうかを返し、複数?
のを許可する関数が必要です。例:
これまでのところ、正規表現を使用して、1つのOCRを完全なOCRと一致させることができます。
しかし、両方が異なる場所に?sを持っている場合、これは機能しません。
.net - キーボードにない文字 (英語以外) を含む文字列を検索するにはどうすればよいですか?
ユーザーが英語以外の文字に相当する英語の文字を入力できるようにする検索フォームがあります。
例えば。Ælfred を見つけるには、ユーザーは「Ælfred」または「AElfred」を検索できます。
検索では大文字と小文字を区別しない必要があるため、「aelfred」が機能します。
また、デフォルトで文字列の先頭に一致するように検索するので、「Æ」または「AE」または「A」の検索でも結果にÆlfredが含まれます。
ê -> e、å -> a などの他の変換を考慮する必要があります。
SQL バックエンドで ASP.NET を使用しています。この種の検索に役立つ標準ライブラリはありますか?
regex - 正規表現では、文字列に 0 ~ 9 の数字のみを含めることができ、長さを 45 に制限できます
文字列に文字としてのみ含まれるように正規表現を作成しようとしています。0-9
長さは少なくとも1文字で、45
. したがって、例は00303039
一致しますが、一致し039330a29
ません。
これまでのところ、これは私が持っているものですが、それが正しいかどうかはわかりません
私も試してみました
しかし、それもうまくいかないようです。私は正規表現にあまり詳しくないので、どんな助けも素晴らしいでしょう。ありがとう!
javascript - Javascript文字列の一致とforループ
私はextjsグリッドを持っており、列レンダラー関数の1つにforループがあり、数値の配列を調べて、それらを考慮中の列のすべてのセルの値と比較します。レンダラーはすでに各行に対してループしているので、私は考えていました。そして今、私は各行に対してforループランナーを持っています。
問題は、それを実行させるか、forループの代わりに配列とユーザーString.match()を変更する必要があるかです。
テストできるように、今のところ大きなデータはありません。どちらが良いですか?何か案は?。
ありがとう、ジェイ
language-agnostic - 文字列一致の品質の評価
パターンが各文字列に一致する量を評価しながら、パターンを一連の文字列と 1 つずつ比較する最良の方法は何でしょうか? 正規表現に関する私の限られた経験では、正規表現を使用して文字列とパターンを一致させることは、かなりバイナリ操作のようです...パターンがどれほど複雑であっても、最終的には一致するかしないかのどちらかです。単なるマッチング以上の機能を求めています。これに関連する優れた手法またはアルゴリズムはありますか?
次に例を示します。
パターンfoo bar
があり、次の文字列から最も一致する文字列を見つけたいとしましょう。
さて、これらのどれも実際にはパターンに一致しませんが、どの不一致が最も一致に近いでしょうか? この場合、foo bax
7 文字中 6 文字に一致するため、 が最適です。
これが重複した質問である場合はお詫びします。この質問が既に存在するかどうかを確認したときに、正確に何を検索すればよいかわかりませんでした。
python - N 文字の長さのターゲット文字列から最小距離にある "N グラム" 部分文字列を見つけます
できればPythonで、N文字の長さのターゲット文字列に最も近い既存の文字列のN文字の長さの部分文字列を見つけるのに役立つアルゴリズムを探しています。
ターゲット文字列、つまり 4 文字の長さを次のように考えます。
これが私が利用できる文字列であると仮定します(「最適な配置」マッチングのために、この部分文字列を生成します):
上記の 4 文字の部分文字列:
targetString に最も近い文字列を選択する「マジック関数」を作成/使用したい:
いくつかの例:
この「マジック関数」はよく知られている部分文字列の問題ですか?
私は本当に分を見つけたいです。部分文字列として targetString を持つようにするための nonEmptySubStrings の変更の数。
python - Djangoモデルの外部キーフィールドマッチ
私は次のDjangoモデルを持っています-
XX
これで、views.pyで、フィールドy.disp_nameのすべてのアイテムに対して部分的な文字列一致を実行したいと思います。
通常、これを行います-M.objects.filter(disp_name__istartswith='string')
しかし、ここM
にの外部キーがありModel XX
ます。したがってXX.objects.filter(y.disp_name__istartswith='string')
、エラーが発生します。
また、これも失敗します-
u = User.objects.get(id=1)
u.xx_set.filter(y.disp_name__istartswith='string')
私が言う例外は-SyntaxError: keyword can't be an expression (<console>, line 1)
これを行う方法?