問題タブ [human-computer-interface]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
human-computer-interface - ヒューマン コンピューター インタラクション - 列に並んで待機
私の任務の一環として、ユーザーが列に並んでいる間に何をしたいのかを知ることになっています (何でも)。
ご意見をお寄せいただければ幸いです。
machine-learning - ファイル名のキーと値のペアに標準のファイル命名規則はありますか?
内容に基づいて名前が付けられた複数のデータ ファイルがあります。例えば
- と _ で区切られたキーと値があります。これにはより良い構文がありますか? これらの種類のファイル/ファイル名を自動的に読み取るパーサーはありますか?
ここでの考え方は、ファイル名が人間と機械で読み取り可能であるということです。
image-processing - 目の画像からの視線推定
これまでのところ、瞳孔と目尻を正確に検出できました。ここで、私自身の質問への回答でアップロードしたスナップをいくつか見ることができます。
これが私がこれまでに行ったことです。TLCP、TRCP、BLCP を見て、ユーザーの視線を調整しました。
そして、それらのCPを見ることで得られる対応する注視ポイントはGPと呼ばれます
注視点 GP の計算:
現在の瞳孔中心の位置から TLGP の縦座標の値を差し引きます。これは、注視点が仮想の長方形に収まる必要があるためです。理解していただければ幸いです。これは非常に単純です。
スケールが次のように計算される基本的なスケーリング システムを使用して、瞳孔の中心の位置から計算された視線ポイントをスクリーン ポイントに直線的にマッピングしました。
そして、任意の注視点 P(x,y) に対して、対応するスクリーン ポイント Q(m,n) を次のように計算します。
しかし、問題は、ほぼ完璧な瞳孔検出の後でも (ほとんどの場合、照明が不十分な場合に誤検知が発生するためです。しかし、作業できないため、十分な時間がないため、制限の下に置くつもりです)、i' m はまだ視線の幅と視線の高さが貧弱です。
テスト実行ログは次のとおりです。
注視点と、それに対応する注視検出されたスクリーン ポイント (その下) を見てください。x、y 縦座標の値の大きな違いは、私を悩ませています。月曜日は最終発表会です。
このアプローチの後、次の別のアプローチを理論化しました。
キャリブレーションは、最初の方法と同様に行われます。視線の動きとその方向を検出します。たとえば、瞳孔中心の任意の 2 点 P と Q (P は最初の注視点、Q は 2 番目の注視点) が与えられた場合、線 PQ の方向と長さを計算します。
この線分の長さを L と仮定します。次に、L を画面の縦横比に合わせてスケーリングします。たとえば、L を画面スケールで D とします。視線の移動方向を考慮して、画面上のカーソルを最後の静止点から移動します。長さ D の線分の終点として計算される新しい点 S と始点 S までの距離を R、D とします。比喩的な表現を図に示します。したがって、基本的に、視線データをスクリーン ポイントにマッピングしません。基本的に視線を追跡し、それを「プッシュ」に変換して画面上のカーソルに適用します。しかし、私はまだそれを実装していません。実際には視線を画面座標にマッピングしていないため、誤っている可能性があります。この理論の動機は、sourceforge の eViacam プロジェクトから得られました。それに応じてマウスを動かします。キャリブレーションでは、軸に沿って顔がどれだけ動くかを計算するだけです。
結論: したがって、完全に処理された目の画像 (瞳孔の中心と目尻が検出された画像) からユーザーの視線を検出する方法についてアイデアをお持ちの方がいらっしゃいましたら、教えてください。私はちょうど約 1 日を持っています、そして私はそれが遅いことを知っていますが、私を助けることができる魔法のアイデアが必要です.
algorithm - 瞳孔とグリントの xy 座標を使用した視線の推定
opencv を使用して、中心の xy 座標と瞳孔の半径を追跡することができました。
今度はそれを使って視線を測定したいと思います。
誰かがその理論的な部分で私を助けてくれれば、おそらく私はそれをコーディングできるでしょう.
オープンソースプログラムも同様です。
更新 :角膜のグリントも追跡できるようになりました。私のオンライン調査によると、瞳孔の座標を輝きと比較して視線を推定します。どうすればそれを行うことができますか?
c# - SVM(サポートベクターマシン)を使用した手話のハンドジェスチャ認識
私は手話通訳の下でプロジェクトを行うように割り当てられた学生です。私はすべてのセグメンテーションと形態学的操作を行いました。さらに、ジェスチャーを分類するときが来ました。私はさまざまなジャーナルを調べました。どの機能が私の分類を適切に満たすかについては疑いの余地がありません。プログラミング言語としてC#を選択し、分類にSVM分類器を選択しました。考えられる機能をいくつか挙げてください。可能であれば、完全な数学で十分に文書化してください。
私が見つけた機能:アスペクト比、真円度、広がりHuなどの形状記述子 -バリアントとモーメント機能
最近、画像のサイズ変更と正規化が特徴抽出の前に行われることを発見しました。そして彼らは次のようなアルゴリズムを提案します:
- 100*100などの特定の解像度にサイズ変更します
- 画像の第一原理成分への垂直方向の配置。
- 最後に、画像に合う境界ボックスを再構築します。
指の位置が合ったらどうなるのか疑問です。トレーニングフィンガーが手のひらの主軸と45度整列し、長さが10単位の場合、テストデータが45度と5単位以外の長さで整列しているように表示されるとどうなりますか?
そして遭遇した特徴:指の数と主成分分析(PCA)。しかし、PCAは物理的に何を意味するのでしょうか?
human-computer-interface - さまざまなコントロール(ボタン、スライドバーなど)を使用してさまざまなアクションを実行するための研究はありますか
基本的に、グラフィカル ユーザー インターフェイス (GUI) でさまざまなコンポーネントを使用してさまざまなアクションを実行するための研究を見つけようとしています。例: ボリュームをテストする場合、3 つのテストは、A ボタン、スライドバー、および値を入力するテキスト ボックスです。私はそのような長い行を探していますが、見つかりませんでした。常識のように聞こえるかもしれませんが、すべての設計上の決定を証拠に基づいた事実で裏付けることが重要です。みんなありがとう!
linux - インターネットレス音声トリガー認識
ハンドヘルド デバイスでの音声認識は、通常、ボタンを押すことでトリガーされます。それなしで音声認識をトリガーするにはどうすればよいですか? 私のRaspberry PIベースのデバイスには、ユーザーが手動で操作できるものは意図的にありません.壁にぶら下がっているマイクだけがあります.
一連のアクションを開始する単純なトリガー コマンドを理解させる方法を実装しようとしています。つまり、オーディオ トリガーを「聞く」たびに、単一の .sh スクリプトを実行したいと考えています。スクリプトの名前やパラメーターなど、トリガー自体からデコードする必要があるという意味はありません。非常に単純な機能 - 「トリガーを聞く -> .sh スクリプトを実行する」
私はさまざまなオプションを検討しました:
オーディオ ストリームを継続的に Google 音声認識サービスに送信する - あまり良い考えではありません - トラフィックとリソースの浪費が多すぎます
インターネットレスの音声認識アプリケーションにオーディオ ストリームを継続的に聞いて、トリガー ワードを「選択」させることは、少しは良いことですが、リソースの無駄遣いであり、これらのシステムにはオーディオ サンプルを学習させる必要があります。カスタム名をデバイスに設定する
ある種のピッチ処理を使用して、大きな音のシーケンスに反応するようにします - 手を 2 回たたくなど - 悪くはありませんが、適切にテストした後に手が落ちると思います。私は通常、夜にベッドにいるときにおもちゃを試すことができるので、家族の一員です。
ホイッスルの認識 - 以前のオプションと大差ありませんが、手のひらが痛くなることはありません。ホイッスル コマンドを介してコンピューターに命令するという IBM の記事を見つけることができました。このアプローチは、ローカルの音声認識アプリケーションとほとんど同じですが、さまざまなホイッスル シーケンスを理解するように教えています。しかし、それでは、口笛の音色に関係なく、口笛だけを理解するように教える方法がわかりませんでした。
私はホイッスルのアイデアが好きです - それは他のオプションの中で最もリソースを必要としないように思われます - どうすればこれを行うことができますか?
Raspberry PI ハードウェアによって制限されている場合、簡単に実装できる他の音声トリガーはありますか?