私は、H.264を使用して、さまざまな種類のカメラからライブフィードを取得し、ネットワーク経由でストリーミングするストリーミングソフトウェアに取り組んできました。これを実現するために、x264エンコーダーを直接(「zerolatency」プリセットを使用して)使用し、libavformatでRTP(最終的にはRTSP)にパックできるNALをフィードしています。理想的には、このアプリケーションは可能な限りリアルタイムである必要があります。ほとんどの場合、これはうまく機能しています。
ただし、残念ながら、ある種の同期の問題があります。クライアントでのビデオ再生では、いくつかのスムーズなフレームが表示され、その後に短い一時停止が続き、さらに多くのフレームが表示されます。繰り返す。さらに、約4秒の遅延があるようです。これは、私が試したすべてのビデオプレーヤー(トーテム、VLC、基本的なgstreamerパイプ)で発生します。
私はそれをやや小さなテストケースにまとめました:
#include <stdio.h>
#include <stdint.h>
#include <unistd.h>
#include <x264.h>
#include <libavformat/avformat.h>
#include <libswscale/swscale.h>
#define WIDTH       640
#define HEIGHT      480
#define FPS         30
#define BITRATE     400000
#define RTP_ADDRESS "127.0.0.1"
#define RTP_PORT    49990
struct AVFormatContext* avctx;
struct x264_t* encoder;
struct SwsContext* imgctx;
uint8_t test = 0x80;
void create_sample_picture(x264_picture_t* picture)
{
    // create a frame to store in
    x264_picture_alloc(picture, X264_CSP_I420, WIDTH, HEIGHT);
    // fake image generation
    // disregard how wrong this is; just writing a quick test
    int strides = WIDTH / 8;
    uint8_t* data = malloc(WIDTH * HEIGHT * 3);
    memset(data, test, WIDTH * HEIGHT * 3);
    test = (test << 1) | (test >> (8 - 1));
    // scale the image
    sws_scale(imgctx, (const uint8_t* const*) &data, &strides, 0, HEIGHT,
              picture->img.plane, picture->img.i_stride);
}
int encode_frame(x264_picture_t* picture, x264_nal_t** nals)
{
    // encode a frame
    x264_picture_t pic_out;
    int num_nals;
    int frame_size = x264_encoder_encode(encoder, nals, &num_nals, picture, &pic_out);
    // ignore bad frames
    if (frame_size < 0)
    {
        return frame_size;
    }
    return num_nals;
}
void stream_frame(uint8_t* payload, int size)
{
    // initalize a packet
    AVPacket p;
    av_init_packet(&p);
    p.data = payload;
    p.size = size;
    p.stream_index = 0;
    p.flags = AV_PKT_FLAG_KEY;
    p.pts = AV_NOPTS_VALUE;
    p.dts = AV_NOPTS_VALUE;
    // send it out
    av_interleaved_write_frame(avctx, &p);
}
int main(int argc, char* argv[])
{
    // initalize ffmpeg
    av_register_all();
    // set up image scaler
    // (in-width, in-height, in-format, out-width, out-height, out-format, scaling-method, 0, 0, 0)
    imgctx = sws_getContext(WIDTH, HEIGHT, PIX_FMT_MONOWHITE,
                            WIDTH, HEIGHT, PIX_FMT_YUV420P,
                            SWS_FAST_BILINEAR, NULL, NULL, NULL);
    // set up encoder presets
    x264_param_t param;
    x264_param_default_preset(¶m, "ultrafast", "zerolatency");
    param.i_threads = 3;
    param.i_width = WIDTH;
    param.i_height = HEIGHT;
    param.i_fps_num = FPS;
    param.i_fps_den = 1;
    param.i_keyint_max = FPS;
    param.b_intra_refresh = 0;
    param.rc.i_bitrate = BITRATE;
    param.b_repeat_headers = 1; // whether to repeat headers or write just once
    param.b_annexb = 1;         // place start codes (1) or sizes (0)
    // initalize
    x264_param_apply_profile(¶m, "high");
    encoder = x264_encoder_open(¶m);
    // at this point, x264_encoder_headers can be used, but it has had no effect
    // set up streaming context. a lot of error handling has been ommitted
    // for brevity, but this should be pretty standard.
    avctx = avformat_alloc_context();
    struct AVOutputFormat* fmt = av_guess_format("rtp", NULL, NULL);
    avctx->oformat = fmt;
    snprintf(avctx->filename, sizeof(avctx->filename), "rtp://%s:%d", RTP_ADDRESS, RTP_PORT);
    if (url_fopen(&avctx->pb, avctx->filename, URL_WRONLY) < 0)
    {
        perror("url_fopen failed");
        return 1;
    }
    struct AVStream* stream = av_new_stream(avctx, 1);
    // initalize codec
    AVCodecContext* c = stream->codec;
    c->codec_id = CODEC_ID_H264;
    c->codec_type = AVMEDIA_TYPE_VIDEO;
    c->flags = CODEC_FLAG_GLOBAL_HEADER;
    c->width = WIDTH;
    c->height = HEIGHT;
    c->time_base.den = FPS;
    c->time_base.num = 1;
    c->gop_size = FPS;
    c->bit_rate = BITRATE;
    avctx->flags = AVFMT_FLAG_RTP_HINT;
    // write the header
    av_write_header(avctx);
    // make some frames
    for (int frame = 0; frame < 10000; frame++)
    {
        // create a sample moving frame
        x264_picture_t* pic = (x264_picture_t*) malloc(sizeof(x264_picture_t));
        create_sample_picture(pic);
        // encode the frame
        x264_nal_t* nals;
        int num_nals = encode_frame(pic, &nals);
        if (num_nals < 0)
            printf("invalid frame size: %d\n", num_nals);
        // send out NALs
        for (int i = 0; i < num_nals; i++)
        {
            stream_frame(nals[i].p_payload, nals[i].i_payload);
        }
        // free up resources
        x264_picture_clean(pic);
        free(pic);
        // stream at approx 30 fps
        printf("frame %d\n", frame);
        usleep(33333);
    }
    return 0;
}
このテストでは、白い背景に黒い線が表示され、左にスムーズに移動するはずです。ffmpeg 0.6.5用に書かれていますが、問題は0.8と0.10で再現できます(これまでにテストしたものから)。エラー処理でいくつかのショートカットを使用して、この例をできるだけ短くし、問題を示しているので、厄介なコードのいくつかを許してください。また、ここではSDPを使用していませんが、SDPを使用してみたところ、同様の結果が得られていることにも注意してください。テストは次のコマンドでコンパイルできます。
gcc -g -std=gnu99 streamtest.c -lswscale -lavformat -lx264 -lm -lpthread -o streamtest
gtreamerで直接再生できます。
gst-launch udpsrc port=49990 ! application/x-rtp,payload=96,clock-rate=90000 ! rtph264depay ! decodebin ! xvimagesink
吃音にすぐに気付くはずです。私がインターネット全体で見た一般的な「修正」の1つは、パイプラインにsync=falseを追加することです。
gst-launch udpsrc port=49990 ! application/x-rtp,payload=96,clock-rate=90000 ! rtph264depay ! decodebin ! xvimagesink sync=false
これにより、再生がスムーズに(そしてほぼリアルタイムで)行われますが、解決策ではなく、gstreamerでのみ機能します。ソースで問題を修正したいと思います。私は生のffmpegを使用してほぼ同一のパラメーターでストリーミングすることができましたが、問題はありませんでした。
ffmpeg -re -i sample.mp4 -vcodec libx264 -vpre ultrafast -vpre baseline -b 400000 -an -f rtp rtp://127.0.0.1:49990 -an
だから明らかに私は何か間違ったことをしている。しかし、それは何ですか?