問題タブ [fuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - difflib.SequenceMatcher get_matching_blocks()を使用した説明されていない動作
私はfuzzywuzzyを試していましたが、かなりの数のケースで間違った結果が生成されていることに気付きました。デバッグしようとしましたが、説明が難しいget_matching_blocks()のシナリオに遭遇しました。
n
get_matching_blocks()についての私の理解は、インデックスの最初の文字列の長さのサブ文字 列がインデックスの2番目の文字i
列の長さのサブ文字列と正確に一致するトリプレットタプル(i、j、n)を返す必要があるということです。n
j。
では、なぜ上記のコードが一致するブロックを見つけられないのでしょうか?
matlab - ファジー入力のセル タイプ番号の挿入エラー
システム コンテンツを Fuzzy にしたいので、まず GUI でグラフィカルなシステム シェイプを作成します。私のシステムのメイン セクターは、このテーブルの一部の列はユーザーが入力する必要があるテーブルであり、他の行はファジー プロセスの後に入力する必要があります。次に、ファジー システムを個別に作成し、コマンド ウィンドウを使用して MATLAB のファジー システムに (ファジー入力変数の代わりに) セル タイプ番号を挿入したい場合、次のエラーが表示されました。
問題を解決するのを手伝ってください。
r - R のテキスト文字列の最初のおおよその一致から情報を引き出す (および一致の総数を合計する)
テキスト文字列のおおよその一致を合計したり、最初に一致した文字列から情報を引き出したりするのに問題があります。
次のようなデータがあります。
最新のテキスト文字列には、以前のテキスト文字列にすべて大文字の「THEN」と「AT」が追加されていることに注意してください。
次のようなテーブルが必要です。
これも:
最も古い日付のテキストに対応するID番号 (他のテキストが派生した「元の」テキスト)。 それぞれの近似一致の合計。最も古い日付に対応するテキスト。そして、最も古い日付に対応するテキストの日付。
何千万ものケースがあるため、プロセスの自動化に問題があります。
私は Windows 7 を実行しており、高速コンピューティング サーバーにアクセスできます。
アイデア
ここから、「agrep」を使用できますが、どのコンテキストで使用できるかわかりません。どんな助けでも大歓迎です!
注:以下の3つの回答は、最初に尋ねた方法で私の質問に答えますが、「AT」と「THEN」という言葉がなくてもテキストケースが異なることについては言及していません. 実際、それらのほとんどは正確には一致しません。これを元の質問に入れる必要がありました。しかし、私はまだ答えが欲しいです。
ありがとう!
r - 名前のあいまい一致によって一意のIDを作成します(Rを使用したagrep経由)
Rを使用して、年と都市で構造化されたデータセット内の人の名前を照合しようとしています。いくつかのスペルミスのため、完全一致は不可能です。そのため、agrep()を使用して名前をあいまい一致させようとしています。
データセットのサンプルチャンクは次のように構成されています。
きちんとしたバージョン:
数年後に候補者が出てくるかどうか、各都市で個別にチェックしたいと思います。たとえば、例では、
PAULO CEZAR FERREIRA DE ARAUJO
PAULO CESAR FERREIRA DE ARAUJO
2回表示されます(スペルミスあり)。データセット全体の各候補には、一意の数値候補IDを割り当てる必要があります。データセットはかなり大きいため(5500の都市、約100Kのエントリ)、ある程度効率的なコーディングが役立ちます。これを実装する方法について何か提案はありますか?
編集:これが私の試みです(これまでのコメントの助けを借りて)、手元のタスクを達成するのに非常に遅い(非効率的)です。これに対する改善について何か提案はありますか?
編集2:今は良い速度で実行されています。問題は、すべてのステップでの多くの要因との比較でした(それを指摘してくれてありがとう、BlueMagister)。1つのグループ(つまり都市)の候補者のみとの比較を減らすと、5秒で80,000回線のコマンドが実行されます。これは私が住むことができる速度です。
php - PHPファジー時間をJavascriptに変換しますか?
私はファジー時間(別名時間前)を行うphp関数を持っています。
これはサーバー側からテーブルを作成するときに使用されますが、JavaScript を使用してテーブルに新しい項目を追加し、日付を選択できるようになったため、Javascript で機能を複製する必要がありますが、日付を受け入れる必要があります。形式YYYY-MM-DD
で2012-12-14
。
私はそれに取り組み始めますが、私はJavascriptの日付がひどいので、誰かがもっと早くできるようにここに投稿しました.
機能は以下です。
これは私が今まで持っていたものですが、83年前に戻ります
emacs - Emacs ファジー オートコンプリート
ido
の emacs でのあいまい一致が本当に好きです。オートコンプリートでそれをしたいと思います。できればauto-complete
、 を使用してac-python
他の設定を行っているためauto-complete
です。auto-complete
通常の一致が見つからない場合、あいまい一致を提供することは承知していますが、これを通常どおりにしたいです。
java - 順序付けされていない文字列のあいまい一致
言葉遣いが完全にランダムな一連の文字列があり、キーワードに最適な一致を見つける必要があります。トリプレットとレーベンシュタインのアルゴリズムを使用してみましたが、まだ不規則な結果が得られます。文字列を最初の文字で並べ替えてから、レーベンシュタインのアルゴリズムを実行して、より正確な結果を取得できるようにしましたが、役に立ちませんでした。
私のキーワードはおそらくそれぞれ 1 ~ 3 語ですが、一致させようとしているターゲット文字列は 10 ~ 20 語を超えることがあります。キーワードを正しい文字列に効果的に一致させるために使用できる他のアルゴリズムはありますか?
これを使ってみたトリプレットアプローチ:
ここで、A と B は、次のようなトリプレット (単語の 3 文字、1 によるインデックス付けによって生成される) の配列です。
A ∩ B は A と B の同様のトリプレットです。この方法は有効に思えましたが、多くの不規則な結果が得られました。
このあいまい一致を改善する方法はありますか?
algorithm - Fuzzy Matching on Date-Type values
I don't have a real question but I'm more like seeking for creative input for a problem.
I want to compare two (most likely unequal) Date values and calculate the ratio of their similarity. So for example if I'd compare 08.01.2013
and 10.01.2013
I would get a relative high value but between 08.01.2013
and 17.04.1998
it would be really low.
But now I'm not sure how I should exactly calculate the similarity. First I was thinking about turning the Date values into Strings and then use the EditDistance on them (number of single char operations to transform one String into another). This seems like a good idea for some cases and I'll definitly implement it but I also need an appropriate calculation for something like 31.01.2013
and 02.02.2013
mongodb - 複雑な URL 処理の概念
現在、複雑な URL 処理の概念に関する質問に苦労しています。アプリケーションには、さまざまな製品タイプ (カテゴリ、色、メーカー、素材など) をすべて含む製品プロパティ データベース テーブル/コレクションがあります。
ここでの使命は、含まれている製品プロパティを取得するために、可能なすべての (!) 順序で以下のスタイルで URL 要求を処理することです。許可されている唯一の文字はダッシュです (SEO の要件が定められています。一部のプロパティにはダッシュを単独で含めることもできます。これも重要な点だと思います。つまり、カテゴリ「suv-cars」またはメーカー「mercedes-benz」):
...そう:プロパティのすべての順序を許可する必要があります! 結果は、URL リクエストごとに使用されるプロパティに関する情報でなければなりません (ところで、重複したコンテンツはリダイレクトと定義済みのスキーマによって修正されます)。「存在しないプロパティ」/「がらくた」が発生する可能性があり、無視する必要があります。
アップデート:
アイデア1:質問について私が考えている1つの方法は、クエリ文字列をダッシュで分割し、値ごとに分析することです。問題:いくつかのプロパティで2つまたは3つ以上の単語の組み合わせで、さまざまな組み合わせとバリエーションが多すぎますだから、このアイデアを殺すたくさんのクエリがあると思います..
アイデア 2:もう 1 つの方法は、(私の意見では) 大きすぎるエイリアス/URL テーブルをさまざまな組み合わせで構築することですが、それは醜い回避策だと思います。さまざまなプロパティが約 15.000 あるため、さまざまな並べ替え順序のエイリアスの数がこの考えを台無しにしています。
アイデア 3:あなたの番です。あなたの心とあなたの時間をありがとう。
function - matlab で関数を呼び出す。このままではダメですか?
に次のクラスがありますmatlab
。
さて、コマンド winows で、次のことを行いました。
最後のコマンドで、なぜこのエラーが発生したのですか? 関数の呼び出し方が間違っていますか? floating_search.S
th の値を関数に渡し、 whichfloating_search.M
の値を取得するにはどうすればよいですか?S
Y~=1
ありがとう。