問題タブ [outliers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parameters - Weka Gridsearch libsvm は単項クラス (1 クラス) を処理できません
Weka の下で LibSVM のラッパーを使用して、1 クラスの分類器に最適なパラメーターを取得しようとしています。
このため、weka.classifiers.meta.GridSearchに移動し、 LibSVM one classを選択します。
私が使用しているすべてのデータは、同じクラスとしてラベル付けされています。見つけたいパラメータはnuとgammaです
gridSearch オプションは次のとおりです。
weka.classifiers.meta.GridSearch -E CC -y-property classifier.kernel.gamma -y-min -5.0 -y-max 2.0 -y-step 1.0 -y-base 10.0 -y-expression pow(BASE,I) -filter weka.filters.AllFilter -x-property classifier.nu -x-min 0.01 -x-max 1.0 -x-step 10.0 -x-base 10.0 -x-expression I -sample-size 100.0 -traversal COLUMN-WISE -ログファイル "C:\Program Files\Weka-3-6" -S 1 -W weka.classifiers.functions.LibSVM -- -S 2 -K 2 -D 3 -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1
すると、weka は私にこう言います。
weka.classifiers.meta.GridSearch 単項クラスを処理できません!!!
gridsearch が単項クラスを処理できないというのは本当ですか? または私は何か間違ったことをしていますか?
ご協力ありがとうございました。
-ジェシカ
r - 「for」ループからの出力
Plot titles in R using sapply()からのローランドの提案に基づいて、次のループを作成して、データセットで選択したすべての変数からボックスプロットを作成しました。
グラフを提供するという点で、うまく機能します。誰かがループを作成して何らかの出力を返す方法を教えてもらえますか? boxplot からの $out を使用して、計算された外れ値の数を確認できますか?
どうもありがとう!
statistics - 指数データセットを扱う場合、mquantiles() の使用は正確ですか?
データセット内の特定の値の分位点を与える最も正確な関数を見つけようとしています。データセットは (おそらく) 常に指数分布になります。
私が使用している方法論は次のとおりです (コーディングが貧弱である場合は申し訳ありません。私は実際にはインフラストラクチャの専門家であり、統計担当者でも日常的な開発者でもありません)。
調べているうちに、 などの高度な機能がいくつかあることに気付きましたscipy.stats.[distribution type].ppf()
。
これらを使用する利点は何mquantiles()
ですか?
データセット内のデータの分布を効率的に決定するために利用できる方法はありますか (これは私の懸念事項scipy.stats.[distribution type]()
です)。
ありがとう、
マット
[アップデート]
「統計担当者」と話し合った結果、この方法 (彼が「経験的方法」と呼んだもの) は、分布がわからない場合でも有効であると私は信じています。分布を見つけるには、コルモゴロフ–スミルノフ検定scipy.stats.ksone
を使用できます。これはおよびを介して明らかになりscipy.stats.kstwobign
、分布を決定してから、scipy.stats.[distribution type].ppf()
関数の 1 つを利用します。彼はまた、それはまったく問題ではなく、上記の方法は、このすべての作業をほとんど報酬なしで行うのと同じくらい優れていると述べました. 彼は、上記の方法の強度は、利用可能なデータの量に応じて増加すると警告しましたがdata
(逆もまた真であることを意味します)、小さなデータセットに対して法律を適用するという問題を解決した人は誰もいない.
私がやろうとしているのは、データセットの強度を考慮し、結果に重みを付けて、データセットが「小さい」場合ははるかにファジーである/重みが少ないと見なすことです。「小さい」とは?まだ分からない。
ppf() と mquantile() の効果的な使用について、他の人々の意見を引き続き見つけたいと思います。
sql - postgresql: ビューから外れ値以外を選択する
バージョン 8.3 を使用する (選択の余地なし)。
「;WITH x AS」スタイルのクエリはサポートされていないため使用できません (8.3 でわかることから、それらを使用しようとしましたが、認識されません)。もちろん、SQL Server を使用していないため、TOP も使用できません。次の制限クエリを使用しようとしましたが、次のエラーが発生しました。
下位 5% が削除されないので理想的ではありませんが、上位 5% が削除されるだけで生活できます。
r - 30M エントリの大きなファイルを処理するには?
私の質問の最初の部分は、標準偏差よりも高速な計算方法はありますか?
質問の 2 番目の部分は、外れ値 (各行の平均から 3 SD 離れている) を削除し、各行の SD を再計算する方法です。
質問の 3 番目の部分は、各行の SD を計算したら、特定のしきい値 (たとえば 0.05) を超えるものをどのように選択するかです。
私のマトリックスには、3,000 万の行と 50 の列があります。
R よりも高速な方法 (perl や matlab など) があれば、喜んで試してみます。
...
3,000 万行と 50 列のマトリックスがあります。各行について、外れ値を取り除き、標準偏差 (SD) を計算したいと思います。だから私は3000万SDを持っています。次に、SD が最も高い行 (上位 %5) をピックアップしたいと思います。
Rを試してみましたが、データをRにロードするだけでも膨大な時間がかかります。データを *RData として保存することもできました。それでも遅く、時間がかかりすぎます。
これらのことを行うより速い方法はありますか?rまたはperlまたはmatlabのいずれかですか?
opencv - OpenCV:実際のシーンの画像を使用して、異なる視点で特徴検出器と抽出器のパフォーマンスを比較する方法は?
ループ クロージャ アルゴリズムを構築しようとしていますが、開発を開始する前に、どの機能記述子が実際のデータセットでより適切に機能するかをテストしたいと思います。
廊下を両方向から撮影した 2 枚の画像があります。1 枚は部屋に入り、もう 1 枚は同じ部屋から出ます。したがって、それらは同じシーンを表していますが、2 つの異なる (反対の) 視点からのものです。
私は OpenCV を使用しており、検出器、抽出器、および照合器の部分を既にコーディングしています。
しかし、結果を見ると、多くの誤った一致があることがわかりました。どうすればそれらをドロップできますか? cv::FindFoundamentalMat を使用しようとしましたが、これが正しい方法かどうかわかりません。
編集
この論文 ( ShmidtJAMRIS12 ) は、私が考えていたことを正確に実行しますが、各検出器と抽出器のパラメーターをどのように選択するか理解できません。