問題タブ [fuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
fuzzy - fuzzyCLIPS examples
I am learning how to use the version of fuzzyCLIPS from NRC. I would appreciate if someone could point out some ftp/web sites with examples and code using fuzzyCLIPS. I find the manual difficult to learn from
c# - 自然言語をSQLクエリに変換する方法は? 不正確なあいまいクエリ.SQLf
ユーザーが次のようなものを入力できるようにする機能を実装したいと思います。
等しいもの:
私に役立つ解決策を知っていますか?2 番目の質問は、アプリケーション構造のどこで変換する必要があるかということです。アプリケーションコードまたはデータベース内で?
私のアプリは C# で書かれており、ADO.NET 経由で SQL Server 2008 に接続します。
ヒントや疑似コードなどを教えていただければ幸いです。
前もって感謝します !
fuzzy - JessとFuzzyJの支援
JessとFuzzyJを学習しようとしていますが、簡単なプログラムを実行するのに問題があります。私はそれを何時間も見てきましたが、なぜそれが実行されないのかよくわかりません。誰かが私を正しい方向に向けることができれば、それは非常にありがたいです。
algorithm - 指数関数的時間未満でのファジーマッチング重複排除?
比較的短いテキスト文字列 (住所、名前などの順序) を持つ大規模なデータベース (潜在的に数百万のレコード) があります。
不正確な重複を削除する戦略を探していますが、あいまい一致が最適な方法のようです。私の問題: 多くの記事と SO の質問は、データベース内のすべてのレコードに対して単一の文字列を照合することを扱っています。データベース全体を一度に重複排除しようとしています。
前者は、線形時間の問題になります (ある値を他の 100 万の値と比較し、毎回何らかの類似度を計算します)。後者は指数時間の問題です (すべてのレコードの値を他のすべてのレコードの値と比較します。100 万レコードの場合、前者のオプションの 1,000,000 回の計算に対して、約 5 x 10^11 回の計算になります)。
私が言及した「ブルートフォース」方法以外のアプローチがあるかどうか疑問に思っています。各レコードの値を比較するための文字列を生成し、類似度がほぼ等しい文字列をグループ化し、これらのグループに対して総当り法を実行することを考えていました。線形時間は達成できませんが、役立つかもしれません。また、これを適切に考えていれば、文字列 A と B の間の潜在的なあいまい一致を見逃す可能性があります。文字列 C (生成されたチェック文字列) との類似性は、互いに非常に類似しているにもかかわらず、非常に異なるためです。
何か案は?
PS私は、時間の複雑さに対して間違った用語を使用した可能性があることを認識しています-それは私が基本的に理解している概念ですが、その場でアルゴリズムを適切なカテゴリにドロップできるほど十分ではありません. 用語を間違って使用した場合は、修正を歓迎しますが、少なくとも私の主張を理解していただければ幸いです.
編集
一部のコメンターは、レコード間のあいまい一致を考慮して、どのレコードを削除するかを選択するための私の戦略は何であるかを尋ねました (つまり、「foo」、「boo」、および「coo」が与えられた場合、重複としてマークされ、削除されます)。ここで自動削除を探しているわけではないことに注意してください。アイデアは、人間によるレビューと評価の目的で、6,000 万以上のレコード データベースで潜在的な重複にフラグを立てることです。おおまかに予測可能/一貫した量である限り、誤検知があっても問題ありません。重複がどの程度蔓延しているかを把握する必要があるだけです。しかし、ファジー マッチング パススルーの実行に 1 か月かかる場合、そもそもこれはオプションではありません。
matlab - ファジィクラスタリングニューラルネットワークを使用したベイジアンビリーフネットワーク/システム
多くの研究では、人工ニューラルネットワーク(ANN)は、従来の方法と比較して侵入検知システム(IDS)のパフォーマンスを向上させることができると主張しています。ただし、ANNベースのIDSの場合、特に低頻度の攻撃の検出精度と検出の安定性を強化する必要があります。新しいアプローチはFC-ANNと呼ばれ、ANNとファジークラスタリングに基づいて、問題を解決し、IDSがより高い検出率、より少ない誤検出率、およびより強力な安定性を達成できるようにします。FC-ANNの一般的な手順は次のとおりです。まず、ファジークラスタリング手法を使用してさまざまなトレーニングサブセットを生成します。続いて、さまざまなトレーニングサブセットに基づいて、さまざまなANNモデルがトレーニングされ、さまざまな基本モデルが作成されます。最後に、メタラーナーであるファジー集計モジュールを使用して、これらの結果を集計します。
質問:
ベイジアンビリーフネットワーク/システムをファジークラスタリングニューラルネットワークと組み合わせて侵入検知を行うことは可能でしょうか?
誰かが私が遭遇するかもしれない問題を予見できますか?あなたの入力は最も価値があります。
lucene - Solrクエリ結果であいまい一致率を返す
システムにsolr/luceneファジーマッチを実装し、完全に機能しています。
クエリが応答を返した後、あいまい一致のパーセンテージを表示する必要があります。たとえば、インデックス データが「rushikupadhyay」で、クエリが「rushikupadhya」~0.8 の場合、応答の一部として 0.85 または 85% などの正確なパーセンテージを取得する必要があります。
アプリケーションの一部としてパーセンテージ結果を使用し、パーセンテージ一致が 70-80% で X、80-90% で Y、> 90% で Z.
任意のポインタをいただければ幸いです。
machine-learning - ファジー c- カテゴリ データを意味します
非数値データセットにファジー c-means を適用できますか? つまり、カテゴリカルまたは数値とカテゴリの混合.. はいの場合 (そう願っています :( ):
- クラスターの中心を計算する方法
いいえの場合、代替手段は何ですか..これらのデータをファジークラスター化する方法は?
返信が必要です 助けてください
注: Jacard の係数を使用して 2 点間の距離を計算しましたが、クラスターの中心を計算する方法がわかりませんでした。添付ファイルを参照してください。
matlab - クラスタリングと matlab
KDD 1999 カップ データセットから取得したデータをクラスター化しようとしています。
ファイルからの出力は次のようになります。
その形式で48,000の異なるレコードがあります。データをクリーンアップし、数字だけを残してテキストを削除しました。出力は次のようになります。
Excel でコンマ区切りファイルを作成し、csv ファイルとして保存してから、matlab で csv ファイルからデータ ソースを作成しました。matlab の fcm ツールボックスを使用して実行しようとしました (findcluster は、38 列で予想される 38 のデータ型を出力します)。
ただし、クラスターはクラスターのように見えないか、必要な方法で受け入れて動作していません。
クラスターを見つけるのを手伝ってくれる人はいますか? 私はmatlabが初めてなので、経験がなく、クラスタリングも初めてです。
メソッド:
- 選択したクラスター数 (K)
- 重心の初期化 (データセットからランダムに選択された K パターン)
- 最も近い重心を持つクラスターに各パターンを割り当てます
- 各クラスターの平均を計算して、その新しい重心にします
- 停止基準が満たされるまでステップ 3 を繰り返します (パターンが別のクラスターに移動しない)。
これは私が達成しようとしているものです:
これは私が得ているものです:
matlab - Matlabのクラスタリングとデータ形式
前の質問からのリードFCM数値データとcsv/excelファイルのクラスタリング出力された情報を取得し、matlabでのクラスタリングで使用するための実行可能な.datファイルを作成する方法を理解しようとしています。
私はこのように見えるいくつかのタイプのデータを持っています:
以下の方法で.datファイルを作成しようとしましたが、エラーが発生しました。
Matlabsクラスタリングツールは多次元データセットで機能しますが、2次元でのみ表示されます。次に、x軸とy軸を使用して比較しますが、現在のデータからクラスタリング2D分析を作成できるかどうかはよくわかりません。
私がする必要があるのは、以前の投稿からのmファイルを正規化することですFCMクラスタリング数値データとcsv/excelファイル
データを正規化するには:
最小および最大のデータセットを見つける
正規化されたスケールの最小値と最大値
データセット内の番号
正規化された値
したがって、最初の質問は、データセット内の最小数と最大数をどのように見つけるかです(m)
ステップ1:データセット内の最大値と最小値を見つけて、変数capitalAとcapitalBで表します。
ステップ2正規化最小数と最大数を特定し、変数を小文字のaとbに設定します。matlabでこれを行う方法がわかりません(最初にデータを正規化する方法がわかりません)。
ステップ3は、方程式を使用して任意の数xの正規化された値を計算します