問題タブ [feature-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
14471 参照

machine-learning - 主成分分析で分散を最大化するのはなぜですか?

私は PCA を読み込もうとしていますが、目的は分散を最大化することであることがわかりました。理由がよくわかりません。他の関連トピックの説明は役に立ちます

0 投票する
1 に答える
640 参照

image-processing - 画像メタデータからの特徴抽出

悪意のある画像を特定しようとしているセキュリティの問題に取り組んでいます。悪意のある画像を検出するために、さまざまな機械学習アルゴリズムを実行するためにWekaにフィードできる画像(おそらくメタデータから)から属性をマイニングする必要があります。

画像メタデータはさまざまな方法で破損する可能性があるため、学習アルゴリズムで定量化できる画像メタデータで確認する機能を特定するのが難しいと感じています。

以前は、ImageJなどのツールを使用してピクセル情報などの情報を使用して画像を分類していましたが、画像/画像メタデータから特徴を識別して定量化するためのより良い方法(セキュリティに関して)を探しています。

ツールと機能に関する提案はありますか?

0 投票する
1 に答える
4726 参照

python - scikit-learn で特徴抽出クラスを組み合わせる

sklearn.pipeline.Pipeline特徴抽出器と分類器を連鎖させるために使用しています。複数の特徴選択クラス (たとえば のクラスsklearn.feature_selection.text) を並列に組み合わせて、それらの出力を結合する方法はありますか?

私のコードは次のようになります。

その結果、次のようになります。

次のようなパイプラインを指定できるようにしたいと考えています。

0 投票する
3 に答える
12353 参照

android - Android AudioRecord および MediaRecorder

オーディオを録音し、それを処理してその録音の機能を取得する必要があるオーディオ処理アプリケーションを開発しています。ただし、再生可能な形式のオーディオを MediaPlayer で再生したいと考えています。

オーディオを録音して処理するには、AudioRecord を使用する方がよいことがわかりました。そこから生のオーディオを取得できるからです。しかし、その後、データを再生可能な形式でファイルに書き込むことはできません (アンドロイドでこれを行うためのライブラリはありますか?)。

この方法を使用して生データを記録し、ファイルに書き込みました: http://andrewbrobinson.com/2011/11/27/capturing-raw-audio-data-in-android/ しかし、このファイルを再生しようとするとデバイスでは再生できません。

次に、MediaRecorder を使用すると、データをデコードして特徴を抽出する方法がわかりません。MediaExtractor を見てきましたが、MediaExtractor がフレームをデコードしていないようです。

だから..これを行うための最良の方法は何ですか? これはどのオーディオ処理アプリケーションでもよくあることだと思いますが、これを管理する方法を見つけることができませんでした。

返信ありがとうございます。

0 投票する
1 に答える
428 参照

neural-network - 画像のダウンサンプリングされたバイナリ グリッド以外に、手書きの OCR に使用できる機能はどれですか?

こんにちは、手書きのOCR分類ニューラルネットワークで使用するのに適した機能について、研究論文を検索しています。私は初心者なので、手書き文字の画像を取り、その周りにバウンディング ボックスを作成し、それを 15x20 のバイナリ画像にサイズ変更しました。これは、300 個のフィーチャの入力レイヤーがあることを意味します。私がグーグルで見つけた論文(そのほとんどはかなり古いものです)から、方法は本当に異なります。私の精度は画像のバイナリ グリッドだけでは悪くありませんが、精度を上げるために使用できる他の機能を誰かが持っているかどうか疑問に思っていました。または、私を正しい方向に向けるだけです。とても感謝しております!

ありがとう、ザック

0 投票する
1 に答える
1271 参照

android - 密なキーポイントの記述子の計算

OpenCV4Android では、画像上に点のグリッドを配置する DENSE 機能検出器を使用しています。次に、これらのキーポイントの記述子を計算します。このために、ORB 記述子エクストラクタを使用しようとしました。

ここで、記述子エクストラクタは、記述子を計算できなかったキーポイントを削除する必要があるため、出力時pointsmat0.totalとこれらの量は等しくなければなりません。descriptors0.rows()しかし、そうではありません。

私は得る:

BRIEF 記述子エクストラクタを使用してみましたが、これにも同じ問題があります。したがって、DENSE+ORB / DENSE+BRIEF にはこの問題があります。

このサンプルを ORB+ORB で実行すると、キーポイントの数は記述子の数と同じになります (両方とも 500)。質問: DENSE で使用できる記述子エクストラクタはどれですか?

0 投票する
1 に答える
1885 参照

feature-extraction - tf-idf で非常に珍しい用語を扱う方法は?

素朴な「キーワード抽出アルゴリズム」を実装しています。私は独学なので、オンライン文献で一般的な用語や数学が不足しています。

ドキュメントの「最も関連性の高いキーワード」を次のように見つけています。

  1. 各用語が現在のドキュメントで使用されている頻度を数えます。これをtfとしましょう。
  2. これらの各用語がドキュメントのデータベース全体でどのくらいの頻度で使用されているかを調べます。これをdfとしましょう。
  3. r = tf / dfによって、各用語の関連性の重みrを計算します。

各ドキュメントはコーパスの適切なサブセットであるため、コーパスにない用語を含むドキュメントはありません。これは、ゼロ除算について心配する必要がないことを意味します。

すべての用語をrで並べ替え、上位の用語の多くを保持します。これらは、このドキュメントに最も密接に関連する上位のキーワードです。このドキュメントで一般的に使用される用語は、より重要です。ドキュメントのデータベース全体に共通する用語は、それほど重要ではありません。

これは単純な形式のtf-idfだと思います。

問題は、用語がデータベース全体で非常にまれであるが、現在のドキュメントで使用されている場合、 r値が高すぎるように見えることです。

これは、サンプル サイズが小さいため、ある種のアーティファクトと考えることができます。これを補うための最善の方法または通常の方法は何ですか?

  • データベース全体で特定のしきい値よりも一般的でない用語を破棄します。もしそうなら、そのしきい値はどのように計算されますか? ハードコードされた値になるには、あまりにも多くの要因に依存しているようです。
  • 逆二乗やコサインなどの数学関数で加重または平滑化できますか?

私はウェブを検索してtf-idfを読んでみましたが、私が興味を持っていないドキュメントの比較を扱っていることがわかりました。さらに、それらのほとんどは、説明と専門用語や公式の比率が低くなっています。

(実際、私のプロジェクトはこの問題の一般化です。私は実際に Stack Exchange サイトのタグを扱っているので、用語の総数は少なく、ストップワードは無関係であり、使用頻度の低いタグは使用頻度の低い単語よりも一般的かもしれません。通常のケースです。)

0 投票する
2 に答える
2133 参照

image-processing - 画像の自動植物相検出

私の画像データセットはhttp://www.image-net.orgからのものです。植物相、動物相、人など、さまざまなシンセットがあります
。画像がフローラルシンセットに属する場合は1を予測し、そうでない場合は0を予測する分類器をトレーニングする必要があります。
花のシンセットに属する画像は、http://www.image-net.org/exploreで、左側のペインの植物、植物、植物の寿命のオプションをクリックして表示できます。

これらの画像には、樹木、ハーブ、低木、花など、さまざまな植物相が含まれています。分類器のトレーニングに使用する機能がわかりません。これらの画像には緑がたくさんありますが、緑の成分が少ない花の画像がたくさんあります。もう一つの特徴は、葉と花びらの形です。

誰かがこの形状の特徴を抽出し、それを使用して分類器をトレーニングする方法を提案できれば便利です。また、分類器をトレーニングするために使用できる他の機能を提案します。
そして、特徴を抽出した後、分類器をトレーニングするためにどのアルゴリズムを使用しますか?

0 投票する
1 に答える
202 参照

image-processing - 低解像度の画像またはぼやけた画像を 1 つの正確な写真にしますか? アルゴリズム?線形計画?

わずか 1MB のカメラで、書かれたテキストのある程度判読可能な写真が得られるとします。現在、HDRI は影を取り除き、写真を単独よりも優れたものにすることができます。私の友人は、将来的には、ぼやけた画像や低解像度の画像でさえ正確にすることが可能になるだろうと言いました. 実際には、貧弱な APS 機能のデバイスでも非常に優れた写真を撮影できることを意味します。ここでは APSです。では、同じオブジェクトからの 10 枚のぼやけた/粗末な写真を、わずかに異なる角度からの 1 枚の正確な写真にするアルゴリズムとは何でしょうか? それはどのように行われ、これに関する詳細情報はどこにありますか?

iPad 2、電話カメラなどのさまざまなデバイスで問題が発生することがよくあります。そのような写真を処理するための一般的な方法とその方法を見つけたいと思いますか? そして、この種の通常は 3D のケースにはどのような問題があるのでしょうか? これには、線形計画法を削減したアルゴリズムが用意されていますか?

0 投票する
2 に答える
4165 参照

javascript - Javascriptによる特徴抽出

Javascriptを使用した画像特徴抽出用のオープンソースまたは無料のライブラリがあるかどうか疑問に思っていますか?SIFTのようなアルゴリズムを使用する必要があるアプリを開発しています。JSで実装するのは難しく、JSで適切なSIFT実装を見つけることができませんでした。特徴抽出ライブラリが存在しない場合は、JSに実装することを考えました。誰かが私が良い解決策を見つけるのを手伝ってくれるか、最初からそれを書くように私を導くことができますか?

ありがとう、ケシャン。