3

ポートオーディオと組み合わせてopencv(オブジェクト認識用)を使用して、ビデオ入力に基づいてサウンドを再生しています。基本的に、私の目標は、特定のピッチ/周波数の正弦波トーンを異なるレートで再生することです。それは機能しますが、結果は非常に予測不可能です。オーディオ再生が機能する場合 (プログラムの実行は遅いが機能する) もあれば、オーディオ再生が行われない場合もあります。一言で言えば/フローでは、これは私のプログラムが行うことです:

ウェブカメラ フィードを開始 -> ウェブカメラ画像を取得 -> 画像内の領域を選択 -> ビデオ フィードに戻る -> while(フレームが存在する) -> オブジェクトの位置を追跡 -> ポート オーディオ ツールを初期化 -> 位置に基づいてサウンドを再生 -> ポートオーディオ ツールを終了

オーディオの再生に一貫性がない理由がわかりません。みなさん何かコツはありますか?私は周りを読んでいて、これはレイテンシーの問題だと考えていますが、実際にはこの問題について経験がありません. opencv なしで portaudio を使用すると、遅延の問題は発生しないため、この 2 つを組み合わせる必要があることがわかっています。どんな助けでも大歓迎です。

while (frame)
{
    cvCopyImage(frame, drawImg);

    // process
    track(frame);

    // get result
    CvRect r;
    float  confidence;
    bool   valid;
    /* getRoi tells us if the region being tracked on the screen
     * is the same region that we chose prior to entering this while loop
     */
    getRoi(&r, &confidence, &valid); 

    // show
    cvDrawRect(drawImg, cvPoint(r.x, r.y), 
        cvPoint(r.x + r.width - 1, r.y + r.height - 1),
        valid ? cvScalar(0, 255, 0) : cvScalar(0, 255, 255),
        2
    );
    writeLogo(drawImg,"USC-IRIS");
    int xpos = r.x;
    int ypos = r.y;



    cvShowImage("Tracking", drawImg);
    cout << "valid " << valid << endl;
    cout << "conf val " << confidence << endl;
    cout << "xpos, ypos " << xpos << ", " << ypos << endl;
            //If the region on the screen is the region we chose
            //then we should play specific sounds
    if(valid){

        sI->soundWrite(xpos, ypos);
        float freq = sI->getFreq();
        int amp = sI->getAmp();
        float pulse = sI->getPulse();

        switch(amp){
            case 0:
                //printf("Hear sound in both ears.\n");
                data.targetBalance = .5;
                break;
            case 1:
                //printf("Hear sound in left ear.\n");
                data.targetBalance = 0;
                break;
            case 2:
                //printf("Hear sound in right ear.\n");
                data.targetBalance = 1;
                break;
            default:
                //printf("Incorrect value for amp (left/right sound indicator)");
                data.targetBalance = .5;
                break;
        }



        err = Pa_Initialize(); //scan for available devices i.e. audio jack, headphones
        if(err != paNoError) {
            printf("init\n");
            goto error;
        }
        //open the sound stream for processing
        err =  Pa_OpenDefaultStream( &stream, 0, 2, paFloat32, SAMPLE_RATE, 
            256, patestCallback, &data ); //open the sound stream for processing
        if( err != paNoError ) {
            printf("open\n");
            goto error;
        }

        //start the stream (i.e. play sound) if no errors
        err = Pa_StartStream(stream);
        if(err != paNoError) {
            printf("start\n");
            goto error;
        }

        //check which ear(s) the sound should be played to



        //hold that tone for a certain amount of time (pulse*200 millisec)
        Pa_Sleep(pulse*200);
        cout << "pulse: " << pulse <<  endl << "freq: " << freq << endl;
        cout << "amp: " << amp << endl;

        //stop the stream (i.e. stop playing sound)
        err = Pa_StopStream(stream);
        if(err != paNoError) {
            printf("stop\n");
            goto error;
        }

        err = Pa_CloseStream( stream );
        if( err != paNoError ) {
            printf("close\n");
            goto error;
        }

        err = Pa_Terminate();
        if( err != paNoError ) {
            printf("term\n");
            goto error;
        }
    }
    int key = cvWaitKey(1);
    // write
    if (output_txt)
        fprintf(output_txt, "%d %d %d %d\n", r.x, r.y, r.width, r.height);
    if (output_avi)
        cvWriteFrame(output_avi, drawImg);

    // next
    if (key == 'q'||key=='Q')
        break;
    frame = cvQueryFrame(capture);
}
4

2 に答える 2

2

一貫性のないオーディオ再生は、上記の私の質問に表示されていないコードの別のセグメントが原因だったようです。その間違ったコードは以下のとおりです。エラーは、この関数の最初の if ステートメントと最後の forloop に関係していると思います。変数 framesToCalc が正しく計算されていなかったと思います。したがって、最初の for ループは outputBuffer/out 変数にデータを配置していませんでした。次に、最後に、残りの未使用のバッファー スペースをゼロにします。したがって、バッファがゼロになっているため、音はありません。私の解決策は、最初の if else と最後の forloop を削除することでした。さらに、i=0 から framesPerBuffer への最初の for ループを実行しました。今では完全に機能します。

static int patestCallback(const void *inputBuffer, void *outputBuffer, unsigned long framesPerBuffer, const PaStreamCallbackTimeInfo *timeInfo, PaStreamCallbackFlags statusFlags, void *userData){
paTestData *data = (paTestData*)userData;
SAMPLE_t *out = (SAMPLE_t *)outputBuffer;
int i;
int framesToCalc;
int finished = 0;
(void) inputBuffer; 
int left_phase = data->left_phase;
int right_phase = data->right_phase;


if( data->framesToGo < framesPerBuffer )
{
    framesToCalc = data->framesToGo;
    data->framesToGo = 0;
    finished = 1;
}
else
{
    framesToCalc = framesPerBuffer;
    data->framesToGo -= framesPerBuffer;
}

for( i=0; i<framesToCalc; i++ )
{
    if( data->currentBalance < data->targetBalance )
    {
        data->currentBalance += BALANCE_DELTA;
    }
    else if( data->currentBalance > data->targetBalance )
    {
        data->currentBalance -= BALANCE_DELTA;
    }
    left_phase += (LEFT_FREQ / SAMPLE_RATE);
    right_phase += (RIGHT_FREQ / SAMPLE_RATE);
    if( fabs(data->currentBalance - .5)  < .001){
        //left_phase += (double)(LEFT_FREQ / SAMPLE_RATE);
        if( left_phase > 1.0) left_phase -= 1.0;

        *out++ = DOUBLE_TO_SAMPLE( AMPLITUDE * sin( (left_phase * M_PI * 2. )));

        //right_phase += (double)(RIGHT_FREQ / SAMPLE_RATE);
        if( right_phase > 1.0) right_phase -= 1.0;
        *out++ = DOUBLE_TO_SAMPLE( AMPLITUDE * sin( (right_phase * M_PI * 2. )));
    }else{
        //left_phase += (double)(LEFT_FREQ / SAMPLE_RATE);
        if( left_phase > 1.0) left_phase -= 1.0;

        *out++ = DOUBLE_TO_SAMPLE( AMPLITUDE * sin( (left_phase * M_PI * 2. ))*(1.0 - data->currentBalance));

        //right_phase += (double)(RIGHT_FREQ / SAMPLE_RATE);
        if( right_phase > 1.0) right_phase -= 1.0;
        *out++ = DOUBLE_TO_SAMPLE( AMPLITUDE * sin( (right_phase * M_PI * 2. ))*data->currentBalance);
    }

}
    // zero remainder of final buffer
    for( ; i<(int)framesPerBuffer; i++ )
    {
        *out++ = SAMPLE_ZERO; //left
        *out++ = SAMPLE_ZERO; //right
    }
    data->left_phase = left_phase;
    data->right_phase = right_phase;
    return finished;
}
于 2012-03-09T07:25:40.673 に答える
1

フレーム ループ内で PortAudio を初期化および終了するのはなぜですか? プログラムの最初に一度初期化し、最後に一度終了することをお勧めします。

于 2012-02-23T21:47:11.857 に答える