libavformatを使用してMP4に多重化されたH.264が再生されない

Question

H.264データをMP4ファイルに多重化しようとしています。このH.264Annex BデータをMP4ファイルに保存してもエラーはないようですが、ファイルの再生に失敗します。

私はファイルのバイナリ比較を行いましたが、問題はMP4ファイルのフッター（トレーラー）に書き込まれているもののどこかにあるようです。

ストリームの作成方法などに関係しているのではないかと思います。

初期化：

AVOutputFormat* fmt = av_guess_format( 0, "out.mp4", 0 ); oc = avformat_alloc_context(); oc->oformat = fmt; strcpy(oc->filename, filename);

私が持っているこのプロトタイプアプリの一部は、IFrameごとにpngファイルを作成することです。したがって、最初のIFrameが検出されたら、ビデオストリームを作成し、avヘッダーなどを書き込みます。

void addVideoStream(AVCodecContext* decoder) { videoStream = av_new_stream(oc, 0); if (!videoStream) { cout << "ERROR creating video stream" << endl; return; } vi = videoStream->index; videoContext = videoStream->codec; videoContext->codec_type = AVMEDIA_TYPE_VIDEO; videoContext->codec_id = decoder->codec_id; videoContext->bit_rate = 512000; videoContext->width = decoder->width; videoContext->height = decoder->height; videoContext->time_base.den = 25; videoContext->time_base.num = 1; videoContext->gop_size = decoder->gop_size; videoContext->pix_fmt = decoder->pix_fmt; if (oc->oformat->flags & AVFMT_GLOBALHEADER) videoContext->flags |= CODEC_FLAG_GLOBAL_HEADER; av_dump_format(oc, 0, filename, 1); if (!(oc->oformat->flags & AVFMT_NOFILE)) { if (avio_open(&oc->pb, filename, AVIO_FLAG_WRITE) < 0) { cout << "Error opening file" << endl; } avformat_write_header(oc, NULL); }

私はパケットを書きます：

unsigned char* data = block->getData(); unsigned char videoFrameType = data[4]; int dataLen = block->getDataLen(); // store pps if (videoFrameType == 0x68) { if (ppsFrame != NULL) { delete ppsFrame; ppsFrameLength = 0; ppsFrame = NULL; } ppsFrameLength = block->getDataLen(); ppsFrame = new unsigned char[ppsFrameLength]; memcpy(ppsFrame, block->getData(), ppsFrameLength); } else if (videoFrameType == 0x67) { // sps if (spsFrame != NULL) { delete spsFrame; spsFrameLength = 0; spsFrame = NULL; } spsFrameLength = block->getDataLen(); spsFrame = new unsigned char[spsFrameLength]; memcpy(spsFrame, block->getData(), spsFrameLength); } if (videoFrameType == 0x65 || videoFrameType == 0x41) { videoFrameNumber++; } if (videoFrameType == 0x65) { decodeIFrame(videoFrameNumber, spsFrame, spsFrameLength, ppsFrame, ppsFrameLength, data, dataLen); } if (videoStream != NULL) { AVPacket pkt = { 0 }; av_init_packet(&pkt); pkt.stream_index = vi; pkt.flags = 0; pkt.pts = pkt.dts = 0; if (videoFrameType == 0x65) { // combine the SPS PPS & I frames together pkt.flags |= AV_PKT_FLAG_KEY; unsigned char* videoFrame = new unsigned char[spsFrameLength+ppsFrameLength+dataLen]; memcpy(videoFrame, spsFrame, spsFrameLength); memcpy(&videoFrame[spsFrameLength], ppsFrame, ppsFrameLength); memcpy(&videoFrame[spsFrameLength+ppsFrameLength], data, dataLen); // overwrite the start code (00 00 00 01 with a 32-bit length) setLength(videoFrame, spsFrameLength-4); setLength(&videoFrame[spsFrameLength], ppsFrameLength-4); setLength(&videoFrame[spsFrameLength+ppsFrameLength], dataLen-4); pkt.size = dataLen + spsFrameLength + ppsFrameLength; pkt.data = videoFrame; av_interleaved_write_frame(oc, &pkt); delete videoFrame; videoFrame = NULL; } else if (videoFrameType != 0x67 && videoFrameType != 0x68) { // Send other frames except pps & sps which are caught and stored pkt.size = dataLen; pkt.data = data; setLength(data, dataLen-4); av_interleaved_write_frame(oc, &pkt); }

最後にファイルを閉じます：

av_write_trailer(oc); int i = 0; for (i = 0; i < oc->nb_streams; i++) { av_freep(&oc->streams[i]->codec); av_freep(&oc->streams[i]); } if (!(oc->oformat->flags & AVFMT_NOFILE)) { avio_close(oc->pb); } av_free(oc);

H.264データだけを取得して変換すると、次のようになります。

ffmpeg -i recording.h264 -vcodec copy recording.mp4

ファイルの「フッター」以外はすべて同じです。

私のプログラムからの出力：readrec Recording.tcp out.mp4 **** START **** 01-03-2013 14:26:01 180000出力＃0、mp4、 'out.mp4'へ：ストリーム＃0：0 ：ビデオ：h264、yuv420p、352x288、q = 2-31、512 kb/s、90k tbn、25 tbc **** END **** 01-03-2013 14:27:01 1020001499ビデオフレームを書き込みました。

Ffmpegを使用して変換しようとすると、CODEを使用して作成されたMP4ファイル：

ffmpeg -i out.mp4 -vcodec copy out2.mp4 ffmpeg version 0.11.1 Copyright (c) 2000-2012 the FFmpeg developers built on Mar 7 2013 12:49:22 with suncc 0x5110 configuration: --extra-cflags=-KPIC -g --disable-mmx --disable-protocol=udp --disable-encoder=nellymoser --cc=cc --cxx=CC libavutil 51. 54.100 / 51. 54.100 libavcodec 54. 23.100 / 54. 23.100 libavformat 54. 6.100 / 54. 6.100 libavdevice 54. 0.100 / 54. 0.100 libavfilter 2. 77.100 / 2. 77.100 libswscale 2. 1.100 / 2. 1.100 libswresample 0. 15.100 / 0. 15.100 h264 @ 12eaac0] no frame! Last message repeated 1 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 23 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 74 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 64 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 34 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 49 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 24 times [h264 @ 12eaac0] Partitioned H.264 support is incomplete [h264 @ 12eaac0] no frame! Last message repeated 23 times [h264 @ 12eaac0] sps_id out of range [h264 @ 12eaac0] no frame! Last message repeated 148 times [h264 @ 12eaac0] sps_id (32) out of range Last message repeated 1 times [h264 @ 12eaac0] no frame! Last message repeated 33 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 128 times [h264 @ 12eaac0] sps_id (32) out of range Last message repeated 1 times [h264 @ 12eaac0] no frame! Last message repeated 3 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 3 times [h264 @ 12eaac0] slice type too large (0) at 0 0 [h264 @ 12eaac0] decode_slice_header error [h264 @ 12eaac0] no frame! Last message repeated 309 times [h264 @ 12eaac0] sps_id (32) out of range Last message repeated 1 times [h264 @ 12eaac0] no frame! Last message repeated 192 times [h264 @ 12eaac0] Partitioned H.264 support is incomplete [h264 @ 12eaac0] no frame! Last message repeated 73 times [h264 @ 12eaac0] sps_id (32) out of range Last message repeated 1 times [h264 @ 12eaac0] no frame! Last message repeated 99 times [h264 @ 12eaac0] sps_id (32) out of range Last message repeated 1 times [h264 @ 12eaac0] no frame! Last message repeated 197 times [mov,mp4,m4a,3gp,3g2,mj2 @ 12e3100] decoding for stream 0 failed [mov,mp4,m4a,3gp,3g2,mj2 @ 12e3100] Could not find codec parameters (Video: h264 (avc1 / 0x31637661), 393539 kb/s) out.mp4: could not find codec parameters

問題がどこにあるのかは本当にわかりませんが、ストリームの設定方法に関係している必要があります。私は他の人が同じようなことをしているところからコードのビットを見て、ストリームを設定する際にこのアドバイスを使用しようとしましたが、役に立ちませんでした！

H.264/AACの多重化（同期）ファイルを取得した最終的なコードは次のとおりです。最初に少し背景情報。データはIPカメラから来ています。データは、サードパーティのAPIを介してビデオ/オーディオパケットとして提示されます。ビデオパケットはRTPペイロードデータ（ヘッダーなし）として表示され、再構築されてAnnex B形式のH.264ビデオに変換されるNALUで構成されます。AACオーディオは生のAACとして表示され、これらのパケットは、他のいくつかの項目とともにタイムスタンプ（1970年1月1日から64ビットミリ秒）の送信を可能にするビットストリーム形式に変換されています。

これは多かれ少なかれプロトタイプであり、いかなる点でもクリーンではありません。おそらくひどく漏れています。しかし、これが私と同じようなことを達成しようとする他の誰かの助けになることを願っています。

グローバル：

AVFormatContext* oc = NULL; AVCodecContext* videoContext = NULL; AVStream* videoStream = NULL; AVCodecContext* audioContext = NULL; AVStream* audioStream = NULL; AVCodec* videoCodec = NULL; AVCodec* audioCodec = NULL; int vi = 0; // Video stream int ai = 1; // Audio stream uint64_t firstVideoTimeStamp = 0; uint64_t firstAudioTimeStamp = 0; int audioStartOffset = 0; char* filename = NULL; Boolean first = TRUE; int videoFrameNumber = 0; int audioFrameNumber = 0;

メイン：

int main(int argc, char* argv[]) { if (argc != 3) { cout << argv[0] << " <stream playback file> <output mp4 file>" << endl; return 0; } char* input_stream_file = argv[1]; filename = argv[2]; av_register_all(); fstream inFile; inFile.open(input_stream_file, ios::in); // Used to store the latest pps & sps frames unsigned char* ppsFrame = NULL; int ppsFrameLength = 0; unsigned char* spsFrame = NULL; int spsFrameLength = 0; // Setup MP4 output file AVOutputFormat* fmt = av_guess_format( 0, filename, 0 ); oc = avformat_alloc_context(); oc->oformat = fmt; strcpy(oc->filename, filename); // Setup the bitstream filter for AAC in adts format. Could probably also achieve // this by stripping the first 7 bytes! AVBitStreamFilterContext* bsfc = av_bitstream_filter_init("aac_adtstoasc"); if (!bsfc) { cout << "Error creating adtstoasc filter" << endl; return -1; } while (inFile.good()) { TcpAVDataBlock* block = new TcpAVDataBlock(); block->readStruct(inFile); DateTime dt = block->getTimestampAsDateTime(); switch (block->getPacketType()) { case TCP_PACKET_H264: { if (firstVideoTimeStamp == 0) firstVideoTimeStamp = block->getTimeStamp(); unsigned char* data = block->getData(); unsigned char videoFrameType = data[4]; int dataLen = block->getDataLen(); // pps if (videoFrameType == 0x68) { if (ppsFrame != NULL) { delete ppsFrame; ppsFrameLength = 0; ppsFrame = NULL; } ppsFrameLength = block->getDataLen(); ppsFrame = new unsigned char[ppsFrameLength]; memcpy(ppsFrame, block->getData(), ppsFrameLength); } else if (videoFrameType == 0x67) { // sps if (spsFrame != NULL) { delete spsFrame; spsFrameLength = 0; spsFrame = NULL; } spsFrameLength = block->getDataLen(); spsFrame = new unsigned char[spsFrameLength]; memcpy(spsFrame, block->getData(), spsFrameLength); } if (videoFrameType == 0x65 || videoFrameType == 0x41) { videoFrameNumber++; } // Extract a thumbnail for each I-Frame if (videoFrameType == 0x65) { decodeIFrame(h264, spsFrame, spsFrameLength, ppsFrame, ppsFrameLength, data, dataLen); } if (videoStream != NULL) { AVPacket pkt = { 0 }; av_init_packet(&pkt); pkt.stream_index = vi; pkt.flags = 0; pkt.pts = videoFrameNumber; pkt.dts = videoFrameNumber; if (videoFrameType == 0x65) { pkt.flags = 1; unsigned char* videoFrame = new unsigned char[spsFrameLength+ppsFrameLength+dataLen]; memcpy(videoFrame, spsFrame, spsFrameLength); memcpy(&videoFrame[spsFrameLength], ppsFrame, ppsFrameLength); memcpy(&videoFrame[spsFrameLength+ppsFrameLength], data, dataLen); pkt.data = videoFrame; av_interleaved_write_frame(oc, &pkt); delete videoFrame; videoFrame = NULL; } else if (videoFrameType != 0x67 && videoFrameType != 0x68) { pkt.size = dataLen; pkt.data = data; av_interleaved_write_frame(oc, &pkt); } } break; } case TCP_PACKET_AAC: if (firstAudioTimeStamp == 0) { firstAudioTimeStamp = block->getTimeStamp(); uint64_t millseconds_difference = firstAudioTimeStamp - firstVideoTimeStamp; audioStartOffset = millseconds_difference * 16000 / 1000; cout << "audio offset: " << audioStartOffset << endl; } if (audioStream != NULL) { AVPacket pkt = { 0 }; av_init_packet(&pkt); pkt.stream_index = ai; pkt.flags = 1; pkt.pts = audioFrameNumber*1024; pkt.dts = audioFrameNumber*1024; pkt.data = block->getData(); pkt.size = block->getDataLen(); pkt.duration = 1024; AVPacket newpacket = pkt; int rc = av_bitstream_filter_filter(bsfc, audioContext, NULL, &newpacket.data, &newpacket.size, pkt.data, pkt.size, pkt.flags & AV_PKT_FLAG_KEY); if (rc >= 0) { //cout << "Write audio frame" << endl; newpacket.pts = audioFrameNumber*1024; newpacket.dts = audioFrameNumber*1024; audioFrameNumber++; newpacket.duration = 1024; av_interleaved_write_frame(oc, &newpacket); av_free_packet(&newpacket); } else { cout << "Error filtering aac packet" << endl; } } break; case TCP_PACKET_START: break; case TCP_PACKET_END: break; } delete block; } inFile.close(); av_write_trailer(oc); int i = 0; for (i = 0; i < oc->nb_streams; i++) { av_freep(&oc->streams[i]->codec); av_freep(&oc->streams[i]); } if (!(oc->oformat->flags & AVFMT_NOFILE)) { avio_close(oc->pb); } av_free(oc); delete spsFrame; spsFrame = NULL; delete ppsFrame; ppsFrame = NULL; cout << "Wrote " << videoFrameNumber << " video frames." << endl; return 0; }

ストリームストリーム/コーデックが追加され、ヘッダーはaddVideoAndAudioStream（）という関数で作成されます。この関数はdecodeIFrame（）から呼び出されるため、いくつかの仮定があります（必ずしも良いとは限りません）1。ビデオパケットが最初に来る2.AACが存在する

DecodeIFrameは、Iフレームごとにサムネイルを作成する場所による別個のプロトタイプのようなものでした。サムネイルを生成するコードは次のとおりです。 https://gnunet.org/svn/Extractor/src/plugins/thumbnailffmpeg_extractor.c

DecodeIFrame関数は、AVCodecContextをaddVideoAudioStreamに渡します。

void addVideoAndAudioStream(AVCodecContext* decoder = NULL) { videoStream = av_new_stream(oc, 0); if (!videoStream) { cout << "ERROR creating video stream" << endl; return; } vi = videoStream->index; videoContext = videoStream->codec; videoContext->codec_type = AVMEDIA_TYPE_VIDEO; videoContext->codec_id = decoder->codec_id; videoContext->bit_rate = 512000; videoContext->width = decoder->width; videoContext->height = decoder->height; videoContext->time_base.den = 25; videoContext->time_base.num = 1; videoContext->gop_size = decoder->gop_size; videoContext->pix_fmt = decoder->pix_fmt; audioStream = av_new_stream(oc, 1); if (!audioStream) { cout << "ERROR creating audio stream" << endl; return; } ai = audioStream->index; audioContext = audioStream->codec; audioContext->codec_type = AVMEDIA_TYPE_AUDIO; audioContext->codec_id = CODEC_ID_AAC; audioContext->bit_rate = 64000; audioContext->sample_rate = 16000; audioContext->channels = 1; if (oc->oformat->flags & AVFMT_GLOBALHEADER) { videoContext->flags |= CODEC_FLAG_GLOBAL_HEADER; audioContext->flags |= CODEC_FLAG_GLOBAL_HEADER; } av_dump_format(oc, 0, filename, 1); if (!(oc->oformat->flags & AVFMT_NOFILE)) { if (avio_open(&oc->pb, filename, AVIO_FLAG_WRITE) < 0) { cout << "Error opening file" << endl; } } avformat_write_header(oc, NULL); }

私の知る限り、いくつかの仮定は重要ではないようです。たとえば、次のとおりです。1。ビットレート。実際のビデオビットレートは約262kでしたが、512kビット2のAACチャネルを指定しました。実際の出力はメモリからのステレオでしたが、モノラルを指定しました

ビデオとオーディオのフレームレート（タイムベース）を知る必要があります。

他の多くの例とは異なり、ビデオパケットにpts＆dtsを設定すると、再生できませんでした。タイムベース（25fps）を知ってから、そのタイムベースに従ってptsとdtsを設定する必要がありました。つまり、最初のフレーム= 0（PPS、SPS、I）、2番目のフレーム= 1（中間フレーム、その名前は何でも;））。

AAC私はまたそれが16000Hzであると仮定しなければなりませんでした。オーディオの「オフセット」を決定するために、AACパケットあたり1024サンプル（AAC @ 960サンプルもあります）。これをpts＆dtsに追加しました。したがって、pts/dtsは、再生されるサンプル番号です。また、書き込む前に、パケットに1024の期間が設定されていることを確認する必要があります。

-

さらに今日、Annex Bは他のプレーヤーと実際には互換性がないため、AVCC形式を実際に使用する必要があることがわかりました。

これらのURLは次のことに役立ちました： H264ビデオのデコードの問題RTP ffmpeg（libavcodec） http://aviadr1.blogspot.com.au/2010/ 05/h264-extradata-partially-explained-for.html

ビデオストリームを作成するときに、extradataとextradata_sizeに入力しました。

// Extradata contains PPS & SPS for AVCC format int extradata_len = 8 + spsFrameLen-4 + 1 + 2 + ppsFrameLen-4; videoContext->extradata = (uint8_t*)av_mallocz(extradata_len); videoContext->extradata_size = extradata_len; videoContext->extradata[0] = 0x01; videoContext->extradata[1] = spsFrame[4+1]; videoContext->extradata[2] = spsFrame[4+2]; videoContext->extradata[3] = spsFrame[4+3]; videoContext->extradata[4] = 0xFC | 3; videoContext->extradata[5] = 0xE0 | 1; int tmp = spsFrameLen - 4; videoContext->extradata[6] = (tmp >> 8) & 0x00ff; videoContext->extradata[7] = tmp & 0x00ff; int i = 0; for (i=0;i<tmp;i++) videoContext->extradata[8+i] = spsFrame[4+i]; videoContext->extradata[8+tmp] = 0x01; int tmp2 = ppsFrameLen-4; videoContext->extradata[8+tmp+1] = (tmp2 >> 8) & 0x00ff; videoContext->extradata[8+tmp+2] = tmp2 & 0x00ff; for (i=0;i<tmp2;i++) videoContext->extradata[8+tmp+3+i] = ppsFrame[4+i];

フレームを書き出すときは、SPS＆PPSフレームを付加せず、IフレームとPフレームを書き出すだけです。さらに、最初の4バイトに含まれるAnnexB開始コードを置き換えます。（0x00 0x00 0x00 0x01）I/Pフレームのサイズ。

Alex Cohn · Accepted Answer

要約すると、（元の）コードの問題は、av_interleaved_write_frame()への入力がパケット長で始まらないことでした。 00 00 00 01開始コードを削除しなくてもファイルは再生可能かもしれませんが、そのIMHOはプレーヤーの回復力のある動作であり、私はこれを当てにしません。