ポートオーディオと組み合わせてopencv(オブジェクト認識用)を使用して、ビデオ入力に基づいてサウンドを再生しています。基本的に、私の目標は、特定のピッチ/周波数の正弦波トーンを異なるレートで再生することです。それは機能しますが、結果は非常に予測不可能です。オーディオ再生が機能する場合 (プログラムの実行は遅いが機能する) もあれば、オーディオ再生が行われない場合もあります。一言で言えば/フローでは、これは私のプログラムが行うことです:
ウェブカメラ フィードを開始 -> ウェブカメラ画像を取得 -> 画像内の領域を選択 -> ビデオ フィードに戻る -> while(フレームが存在する) -> オブジェクトの位置を追跡 -> ポート オーディオ ツールを初期化 -> 位置に基づいてサウンドを再生 -> ポートオーディオ ツールを終了
オーディオの再生に一貫性がない理由がわかりません。みなさん何かコツはありますか?私は周りを読んでいて、これはレイテンシーの問題だと考えていますが、実際にはこの問題について経験がありません. opencv なしで portaudio を使用すると、遅延の問題は発生しないため、この 2 つを組み合わせる必要があることがわかっています。どんな助けでも大歓迎です。
while (frame)
{
cvCopyImage(frame, drawImg);
// process
track(frame);
// get result
CvRect r;
float confidence;
bool valid;
/* getRoi tells us if the region being tracked on the screen
* is the same region that we chose prior to entering this while loop
*/
getRoi(&r, &confidence, &valid);
// show
cvDrawRect(drawImg, cvPoint(r.x, r.y),
cvPoint(r.x + r.width - 1, r.y + r.height - 1),
valid ? cvScalar(0, 255, 0) : cvScalar(0, 255, 255),
2
);
writeLogo(drawImg,"USC-IRIS");
int xpos = r.x;
int ypos = r.y;
cvShowImage("Tracking", drawImg);
cout << "valid " << valid << endl;
cout << "conf val " << confidence << endl;
cout << "xpos, ypos " << xpos << ", " << ypos << endl;
//If the region on the screen is the region we chose
//then we should play specific sounds
if(valid){
sI->soundWrite(xpos, ypos);
float freq = sI->getFreq();
int amp = sI->getAmp();
float pulse = sI->getPulse();
switch(amp){
case 0:
//printf("Hear sound in both ears.\n");
data.targetBalance = .5;
break;
case 1:
//printf("Hear sound in left ear.\n");
data.targetBalance = 0;
break;
case 2:
//printf("Hear sound in right ear.\n");
data.targetBalance = 1;
break;
default:
//printf("Incorrect value for amp (left/right sound indicator)");
data.targetBalance = .5;
break;
}
err = Pa_Initialize(); //scan for available devices i.e. audio jack, headphones
if(err != paNoError) {
printf("init\n");
goto error;
}
//open the sound stream for processing
err = Pa_OpenDefaultStream( &stream, 0, 2, paFloat32, SAMPLE_RATE,
256, patestCallback, &data ); //open the sound stream for processing
if( err != paNoError ) {
printf("open\n");
goto error;
}
//start the stream (i.e. play sound) if no errors
err = Pa_StartStream(stream);
if(err != paNoError) {
printf("start\n");
goto error;
}
//check which ear(s) the sound should be played to
//hold that tone for a certain amount of time (pulse*200 millisec)
Pa_Sleep(pulse*200);
cout << "pulse: " << pulse << endl << "freq: " << freq << endl;
cout << "amp: " << amp << endl;
//stop the stream (i.e. stop playing sound)
err = Pa_StopStream(stream);
if(err != paNoError) {
printf("stop\n");
goto error;
}
err = Pa_CloseStream( stream );
if( err != paNoError ) {
printf("close\n");
goto error;
}
err = Pa_Terminate();
if( err != paNoError ) {
printf("term\n");
goto error;
}
}
int key = cvWaitKey(1);
// write
if (output_txt)
fprintf(output_txt, "%d %d %d %d\n", r.x, r.y, r.width, r.height);
if (output_avi)
cvWriteFrame(output_avi, drawImg);
// next
if (key == 'q'||key=='Q')
break;
frame = cvQueryFrame(capture);
}