音视频教程-第二节

音视频系列教程

课程目标

学习如何使用 FFmpeg 打开和读取媒体文件的基本信息，理解 AVFormatContext 的作用。

封装格式简介

在开始之前，先简单了解一下封装格式。

我们常见的视频文件（如 .mp4、.mkv、.avi）都是封装格式，它们把视频、音频、字幕等数据打包在一起。可以简单理解为：封装格式是"盒子"，里面装着编码后的视频和音频数据。

封装格式 vs 编码格式：

封装格式（如 MP4、MKV）：决定如何打包和组织数据
编码格式（如 H.264、AAC）：决定如何压缩数据

举个例子，一个 .mp4 文件可能包含 H.264 编码的视频和 AAC 编码的音频，MP4 负责把它们打包在一起，并提供同步、元数据等功能。

常见的封装格式有 MP4（兼容性好）、MKV（支持多音轨）、FLV（流媒体）等。FFmpeg 可以处理这些格式，我们只需要知道如何打开和读取它们即可。

知识点

1. AVFormatContext 结构体

AVFormatContext 是 FFmpeg 中表示媒体文件格式上下文的核心结构体，包含了媒体文件的所有信息。

主要字段：

iformat：输入格式（如 MP4、MKV 等）
nb_streams：流的数量
streams：流数组
duration：文件时长（以时间基为单位，通常是所有流中最长的时长）
bit_rate：总码率（所有流的码率之和）

重要提示：容器级别 vs 流级别的时长和码率

容器级别（AVFormatContext）的时长和码率与单个流的时长和码率可能不一致：

时长差异：
- 容器时长：通常是所有流中最长的时长（例如视频流时长）
- 流时长：每个流有自己的时长，可能略有差异（特别是音频和视频的同步问题）
- 示例：视频流可能是 11.41 秒，音频流可能是 11.40 秒，容器时长取 11.41 秒
码率差异：
- 容器总码率：所有流的码率之和（视频码率 + 音频码率 + 其他流码率）
- 流码率：单个流的码率
- 示例：视频码率 2260 kbps + 音频码率 253 kbps ≈ 总码率 2517 kbps
如何获取单个流的时长和码率：

1AVStream* video_stream = fmt_ctx->streams[video_index];  
2// 流的时长（以流的时间基为单位）  
3int64_t stream_duration = video_stream->duration;  
4// 转换为秒：stream_duration * av_q2d(video_stream->time_base)  
5// 流的码率  
6int64_t stream_bitrate = video_stream->codecpar->bit_rate;

2. 媒体文件格式识别

FFmpeg 可以自动识别多种媒体文件格式：

视频格式：MP4、MKV、AVI、MOV、FLV 等
音频格式：MP3、AAC、WAV、FLAC 等
流媒体格式：RTMP、HLS、RTSP 等

3. 错误处理机制

FFmpeg 使用返回值表示操作结果：

0：成功
负数：错误码（使用 av_strerror 转换为错误信息）
AVERROR_EOF：文件结束

实践内容

实践1：打开本地视频文件

API： avformat_open_input

1AVFormatContext* fmt_ctx = nullptr;
2const char* filename = "test.mp4";
3
4int ret = avformat_open_input(&fmt_ctx, filename, nullptr, nullptr);
5if (ret == 0) {
6    // 成功打开
7    LOG("Format: %s", fmt_ctx->iformat->name);
8    avformat_close_input(&fmt_ctx);
9} else {
10    // 处理错误
11    char errbuf[AV_ERROR_MAX_STRING_SIZE];
12    av_strerror(ret, errbuf, AV_ERROR_MAX_STRING_SIZE);
13    LOG("Error: %s", errbuf);
14}
15

关键点：

第一个参数是 AVFormatContext**，函数会分配内存
第四个参数是 AVDictionary*，可以传递选项（如超时时间）
使用完后必须调用 avformat_close_input 释放资源

实践2：读取媒体文件基本信息

API： avformat_find_stream_info

1// 先打开文件
2avformat_open_input(&fmt_ctx, filename, nullptr, nullptr);
3
4// 获取流信息（这一步会读取文件头，获取准确的时长等信息）
5int ret = avformat_find_stream_info(fmt_ctx, nullptr);
6if (ret >= 0) {
7    // 获取时长（秒）
8    double duration = (double)fmt_ctx->duration / AV_TIME_BASE;
9    LOG("Duration: %.2f seconds", duration);
10    
11    // 获取码率
12    LOG("Bitrate: %lld bps", fmt_ctx->bit_rate);
13    
14    // 获取流数量
15    LOG("Streams: %u", fmt_ctx->nb_streams);
16}
17

关键点：

avformat_find_stream_info 会读取文件头，可能需要一些时间
duration 的单位是 AV_TIME_BASE（微秒），需要除以 AV_TIME_BASE 得到秒
如果 duration 是 AV_NOPTS_VALUE，表示时长未知

注意：容器时长 vs 流时长

容器级别的 duration 和单个流的时长可能不同：

1// 容器级别的时长（所有流中最长的）
2double container_duration = (double)fmt_ctx->duration / AV_TIME_BASE;
3
4// 获取视频流的时长
5int video_index = -1;
6for (unsigned int i = 0; i < fmt_ctx->nb_streams; i++) {
7    if (fmt_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {
8        video_index = i;
9        break;
10    }
11}
12
13if (video_index >= 0) {
14    AVStream* video_stream = fmt_ctx->streams[video_index];
15    // 流的时长（以流的时间基为单位）
16    double stream_duration = video_stream->duration * av_q2d(video_stream->time_base);
17    LOG("Container duration: %.2f seconds", container_duration);
18    LOG("Video stream duration: %.2f seconds", stream_duration);
19    // 两者可能略有差异（通常差异很小，在几毫秒到几十毫秒之间）
20}
21

注意：容器码率 vs 流码率

容器级别的 bit_rate 是总码率，等于所有流的码率之和：

1// 容器级别的总码率
2int64_t container_bitrate = fmt_ctx->bit_rate;
3
4// 获取各个流的码率
5for (unsigned int i = 0; i < fmt_ctx->nb_streams; i++) {
6    AVStream* stream = fmt_ctx->streams[i];
7    int64_t stream_bitrate = stream->codecpar->bit_rate;
8    const char* stream_type = (stream->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) ? "Video" : "Audio";
9    LOG("%s stream bitrate: %lld bps", stream_type, stream_bitrate);
10}
11
12// 验证：总码率 ≈ 视频码率 + 音频码率 + 其他流码率
13// 注意：由于编码器设置、容器开销等因素，可能不完全相等
14

实践3：打印详细的媒体信息

API： av_dump_format

1avformat_open_input(&fmt_ctx, filename, nullptr, nullptr);
2avformat_find_stream_info(fmt_ctx, nullptr);
3
4// 打印详细信息（输出到 stderr）
5av_dump_format(fmt_ctx, 0, filename, 0);
6

参数说明：

第一个参数：AVFormatContext* - 格式上下文
第二个参数：流索引（0 表示整个文件，>0 表示特定流）
第三个参数：URL 或文件名（用于显示，不影响功能）
第四个参数：是否为输出（0=输入，1=输出）

工作原理：

av_dump_format 会遍历 AVFormatContext 中的所有信息并格式化输出，包括：

文件级别信息：
- 输入格式名称（如 mov,mp4,m4a,3gp,3g2,mj2）
- 文件路径/URL
- 元数据（Metadata）：如 major_brand、creation_time 等
- 总时长（Duration）
- 起始时间（start）
- 总码率（bitrate）
流级别信息（每个流一行）：
- 流索引和 ID
- 编码器信息（如 h264 (High)、aac (LC)）
- 编码器 ID（如 avc1、mp4a）
- 视频：分辨率、像素格式、颜色空间、码率、帧率
- 音频：采样率、声道数、采样格式、码率
- 流的元数据（如 creation_time、handler_name）
输出位置：
- 输出到 stderr（标准错误流），不是 stdout
- 格式类似 ffprobe 或 ffmpeg -i 的输出

示例输出解析：

1Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'test/resources/test-video-1280x720.MP4':
2  Metadata:
3    major_brand     : mp42          # 主要品牌标识
4    minor_version   : 0             # 次要版本
5    compatible_brands: mp42mp41isomavc1  # 兼容的品牌
6    creation_time   : 2021-04-30T06:55:38.000000Z  # 创建时间
7  Duration: 00:00:11.41, start: 0.000000, bitrate: 2517 kb/s
8  Stream #0:0[0x1](und): Video: h264 (High) (avc1 / 0x31637661), yuv420p(tv, bt709, progressive), 1280x720, 2260 kb/s, 30 fps, 30 tbr, 30 tbn (default)
9    # 流 #0:0 - 视频流
10    # [0x1] - 流 ID
11    # (und) - 语言代码（und = undefined）
12    # h264 (High) - 编码器和 profile
13    # avc1 - 编码器 ID（FourCC）
14    # yuv420p - 像素格式
15    # 1280x720 - 分辨率
16    # 2260 kb/s - 视频码率
17    # 30 fps - 帧率
18  Stream #0:1[0x2](und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, stereo, fltp, 253 kb/s (default)
19    # 流 #0:1 - 音频流
20    # aac (LC) - 编码器和 profile
21    # 48000 Hz - 采样率
22    # stereo - 声道（立体声）
23    # fltp - 采样格式（浮点平面）
24

为什么需要先调用 avformat_find_stream_info？

av_dump_format 需要完整的流信息才能打印详细信息。如果只调用 avformat_open_input，只能打印基本信息，流信息会显示为未知。

实践4：处理打开文件失败的情况

1AVFormatContext* fmt_ctx = nullptr;
2int ret = avformat_open_input(&fmt_ctx, "non_existent.mp4", nullptr, nullptr);
3
4if (ret < 0) {
5    char errbuf[AV_ERROR_MAX_STRING_SIZE];
6    av_strerror(ret, errbuf, AV_ERROR_MAX_STRING_SIZE);
7    LOG("Failed to open: %s", errbuf);
8    
9    // 常见错误码：
10    // AVERROR(ENOENT) - 文件不存在
11    // AVERROR(EIO) - IO 错误
12    // AVERROR_INVALIDDATA - 数据无效
13}
14

运行测试

编译项目

在运行测试前，需要先编译项目：

1cmake --build build/Release
2

运行所有第2课的测试

1# 注意：在 zsh 中需要用引号包裹参数，避免 * 被解释为通配符
2./build/Release/unit-test --gtest_filter="Lesson2_Format.*"
3

运行直接使用 API 的测试

1./build/Release/unit-test --gtest_filter="Lesson2_Format.*DirectAPI"
2

编译并运行（推荐）

一条命令完成编译和运行：

1cmake --build build/Release && ./build/Release/unit-test --gtest_filter="Lesson2_Format.*"
2

常见问题

Q1: 为什么 `duration` 是 0？

A: 需要在 avformat_open_input 后调用 avformat_find_stream_info 才能获取准确的时长。

Q2: 如何设置打开文件的超时时间？

A: 使用 AVDictionary 传递选项：

1AVDictionary* opts = nullptr;
2av_dict_set(&opts, "timeout", "5000000", 0);  // 5秒超时（微秒）
3avformat_open_input(&fmt_ctx, filename, nullptr, &opts);
4av_dict_free(&opts);
5

Q3: 如何判断文件格式？

A: 打开文件后，通过 fmt_ctx->iformat->name 获取格式名称。

Q4: 为什么容器级别的时长和单个流的时长不一致？

A: 这是正常现象，原因如下：

容器时长：通常是所有流中最长的时长（例如视频流时长）
流时长：每个流有自己的时长，可能略有差异
- 视频流和音频流的时长可能因为同步问题略有不同（通常差异在几毫秒到几十毫秒）
- 某些流可能提前结束（例如字幕流）
实际应用：通常使用容器时长作为文件总时长，使用流时长进行精确的同步控制

Q5: 为什么容器级别的码率和单个流的码率不一致？

A: 容器码率是总码率，等于所有流的码率之和：

容器总码率 = 视频码率 + 音频码率 + 字幕码率 + 其他流码率
流码率 = 单个流的码率
示例：视频 2260 kbps + 音频 253 kbps ≈ 总码率 2517 kbps

注意：由于编码器设置、容器开销、元数据等因素，总码率可能不完全等于各流码率的简单相加。

参考

《音视频教程-第二节》是转载文章，点击查看原文。