問題タブ [pattern-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image - 画像比較/パターン認識ライブラリを探しています
最終的な目標は、
含む
。
比較では、わずかな歪み、スケーリング、色の違い、回転、明るさの違いをサポートする必要があります。
それは実際にはどの言語でもかまいません。このアルゴリズムをWebサービスとして実行するので、この部分をc、c ++、pythonなどで記述しなければならない場合でも問題ありません。
image-processing - 画像内のグリッドを見つける
マッチ 3 ゲームのスクリーンショット (例: http://www.gameplay3.com/images/games/jewel-quest-ii-01S.jpg ) がある場合、グリッドの境界ボックスを見つける正しい方法は何でしょうか (タイル付きのテーブル)?ボードは完全な長方形である必要はありませんが (スクリーンショットでわかるように)、各セルは完全に正方形です。
いくつかのゲームを試してみたところ、グリッド内のタイルを強化するために実行できるゲームごとの画像変換がいくつかあることがわかりました (たとえば、このゲームでは、HSV カラー スペースから V チャネルを取り出すだけで十分です)。次に、タイルが重なるように拡大し、画像の最大の輪郭を見つけて、そこからバインドされたボックスを取得します。
上記のアプローチの問題は、すべてのゲーム (または同じゲーム内のレベル) で、タイルを取得するために異なる変換が必要になる場合があることです。問題は、グリッド内のタイルまたはグリッドの線のいずれかを強化する標準的な方法はありますか (私はハフ変換で線を見つけようとしましたが、グリッドは目に見えますが、ハフはそれを見つけられません) ?
また、デスクトップのスクリーンショットを撮る代わりに、電話のカメラを使用してスクリーンショットを取得した場合はどうなりますか? 私の経験では、キャプチャされた画像の色はあまり定義されておらず (照明によって異なります)、電話を画面の正面に正確に保持する方法がないため、少し歪む可能性もあります。
video - 動画内の識別可能なキーフレームを見つける良い方法は何ですか?
特定の人間のアクションのビデオから単一の「キーフレーム」を抽出する必要があります(アクションは一般的なものである可能性があります)。説明的ではなく差別的になります(ビデオで興味深いフレームを見つける)。
要するに、バスケットボールのビデオで、コーヒーを飲んでいるビデオと区別できる 1 つのフレームを見つける必要があります。
私が見たほとんどの論文は、ある種のビデオ要約技術でしたが、このように抽出されたフレームは、アクション カテゴリを分離するのに最適である必要はありません。これが私のつまずきです。テスト時に、キーフレームを抽出するためのテスト ビデオしかありませんが、他のアクション カテゴリ ビデオとは最も異なるフレームを抽出できるモデルが必要です。
image-processing - 絵の中の形を認識するためのライブラリ(API)を推奨します
入力として画像を取り、そこから形状を認識して形状の座標を返すことができるライブラリ(APIを使用)が必要です。
ライブラリの展開は単純である必要があり、DLL の形式である必要がありますが、本格的なアプリ (Mathematica など) ではありません。
完璧である必要はありません。形状の近似は問題ありませんが、重複した形状を出力するべきではありません。
これは入力画像の例です
image-processing - PNG 画像をピクセル グレーレベル値の特徴ベクトルに変換する
私はMATLABの初心者で、画像の特徴ベクトルとしてピクセルのグレーレベル値に変換する必要があるbmp画像のセットを持っています。誰かが私にそれを行う方法を提案できますか? これらのピクセルのグレーレベル値を特徴として使用し、PCA/LDA などの操作を実行する必要があります。imread() を試しましたが、行列が返されます..特徴ベクトルは1つの行ベクトルになると思います。
よろしく、
sql - 一般的な隣接する単語/パターン認識を見つけるために使用できるアルゴリズムはどれですか?
データベースに大きなテーブルがあり、さまざまなテキストの単語がテキスト順にたくさん含まれています。いくつかの単語のセットが一緒に現れる回数/頻度を見つけたいです。
例:私が多くのテキストにこの4つの単語を持っていると仮定します:United | States | of | America
。結果として次のようになります。
アメリカ合衆国:50
アメリカ合衆国:45
アメリカ合衆国:40
(これは4語の例にすぎませんが、4語より少ない場合も多い場合もあります)。
これまたはこれに類似したことを行うことができるいくつかのアルゴリズムがありますか?
編集:方法を示すいくつかのRまたはSQLコードは大歓迎です。私がしなければならないことの実際的な例が必要です。
テーブル構造
私は2つのテーブルを持っています:持ってToken
いるid
とtext
。テキストはisでUNIQUE
あり、この表の各入り口は異なる単語を表しています。
TextBlockHasToken
テキストの順序を保持するテーブルです。各行は、テキスト内の単語を表します。
それtextblockid
は、トークンが属するテキストのブロックです。sentence
つまり、トークンposition
のセンテンス、つまりセンテンス内のトークンの位置でtokenid
あり、トークンテーブルの参照です。
ocr - ベイジアンクラスによる数字認識
数字のみの OCR プログラムを作成する必要があります。MNIST データセットを使用します。問題は、どこから始めればよいかわからないことです。アルゴリズムを実際に説明していない論文がたくさんあります。私はパターン認識についてあまり知識がありません。いくつか質問があります。
Q1 : アルゴリズム (またはチュートリアル) はどこにありますか? Q2 : 数字を分類するにはどうすればよいですか? あまり高度なものは必要ありません。最初に頭に浮かぶのは、上半身と下半身、左半身と右半身の比率を見つけることです。もっと便利で簡単な分類方法はありますか。Q3 : ほとんどの論文で示されているバック プロパゲーションとレイヤーとは何ですか? 単純な OCR にそれらが必要ですか。
注: OCR プログラムが正確でないことはわかっています。今のところあまり重要ではありません。
regex - Blackberry Bold - URL を認識できず、登録されているカスタム パターンも認識できません
Blackberry ネイティブ アプリをBB Bold 9700 (OS Version: 5.0)
アプリはフォームのカスタム パターンを登録しますstring://[0-9]*
。パターンに一致する文字列が強調表示されますが、アプリは完全な文字列を受け取りません
また、URL が認識されて強調表示されている場合、起動時に はBB browser
部分的な文字列のみを受け取ります -http://
このバグは でBB Bold 9700 (OS Version: 5.0)
のみ観察されます。
さらにいくつかの質問
- Blackberry デバイスに登録されているすべてのシステム パターンを見つける方法はありますか?
- テキストが複数のパターンに一致する場合、blackberry はどのように競合を解決しますか?
私の場合、テキスト " http://urlline
" と " "の両方がそれぞれstring://customtext
" " にクリップされましhttp:// and string
た。
java - 連続マイク ストリームからの非音声、非音楽のリアルタイム識別
車のドアがバタンと閉まる音や、トースターがトーストを出す音など、特定の音に対応するイベントをログに記録したいと考えています。
システムは「騒音検出器」よりも洗練されたものである必要があります。その特定の音を他の大きな音と区別できる必要があります。
識別はゼロレイテンシである必要はありませんが、プロセッサは、常にオンになっているマイクからの着信データの連続ストリームに対応する必要があります。
- このタスクは音声認識とは大きく異なりますか? または、音声認識ライブラリ/ツールキットを利用して、これらの非音声音を識別できますか?
- (サウンドのライブラリ間でマッチングするのではなく) 1 つのサウンドのみをマッチングする必要があるという要件がある場合、実行できる特別な最適化はありますか?
この回答は、一致したフィルターが適切であることを示していますが、詳細については漠然としています。ターゲット サウンドのバリエーションにより、ターゲット サウンドのサンプルとマイク ストリームとの間のオーディオ波形データに対する単純な相互相関が効果的であるとは思えません。
私の質問もこれに似ていますが、あまり注目されていませんでした。
image - さまざまなパネルにプログラムでガイドビューテクノロジーを実装する
コミックのガイド付きビューテクノロジーに関するScottHanslemanの投稿を読んだばかりですが、他の方法(特にマンガ)
で実装すると素晴らしいと思いますが、
右から左への読み取り自体は最初は少し奇妙で、これは低くなります新しい読者の参入障壁。
私は画像処理の第一人者ではないので、オープンソースプロジェクトが実際に存在するのではないか、そうでない場合は、このようなものから始める手段があるのではないかと考えていました。特に、どの線がパネルで、どこを小さな画像にスライスするかを理解する必要があります。コミックはすべて線の太さに関して独自の設定を持っているので、これを行う簡単な方法が多くの異なる境界線の太さやスタイルで機能するかどうかはわかりません。ここでは言語はそれほど重要ではありません。私は攻撃の概念とパターンを扱うことに真剣に取り組んでいます。