ffprobe 查看媒体信息

地址/链接

类型

编程

教程

排序等级

Related to 笔记本 (Related to 阅读清单 (读后感))

URL

标签

备忘

https://www.jianshu.com/p/ba5afa513798

在 ffmpeg package 中有一个 ffprobe 工具，主要用来查看多媒体文件或者流媒体信息，在线的视频信息也能够快速获取。大部分情况下个人比较喜欢使用 ffmpeg -i input.mp4 来快速查看，这种时候在终端上比较快速，而如果有些时候想要分析一下媒体文件，需要编程获取得到的媒体文件结果，显然 ffmpeg 的输出结果简直无法忍受，而 ffprobe 提供非常清晰的输出格式，非常方便的可以提供给编程软件解析使用。

命令格式及参数格式说明

常用参数说明: • -show_format 显示输入多媒体流的容器格式信息 • -show_streams 显示输入多媒体流中每一个流的信息 • -show_packets 显示每个packet • -show_frames 显示每个帧 • -i input_file 指定输入文件 • -print_format json json 形式输出 • -of 或者 -print_format default/compact/csv/flat/ini/json/xml 通过 > tests.log 可以将结果输出到指定的文件中。

ffprobe.png

show_format .png

show_streams.png

show_packets.png

show_frames.png

基本概念概述

采样频率 采样频率，如截图中的44100HZ ,即取样频率, 指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限,只可以听到的声音频率在20HZ~20kHz之间的声波，太高的频率并不能分辨出来。22050 的采样频率是常用的, 44100已是CD音质, 超过48000或96000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍。采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为 20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

采样位数 采样位数，即采样值或取样值（就是将采样样本幅度量化）。它是用来衡量声音波动变化的一个参数，也可以说是声卡的分辨率。它的数值越大，分辨率也就越高，所发出声音的能力越强。

每个采样数据记录的是振幅, 采样精度取决于采样位数的大小: 1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级; 2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了; 4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

通道数 如截图中的channel:2, 即声音的通道的数目。常有单声道(Mono)和立体声(storeo)之分，单声道的声音只能使用一个喇叭发声（有的也处理成两个喇叭输出同一个声道的声音），立体声可以使两个喇叭都发声（一般左右声道有分工），更能感受到空间效果，当然还有更多的通道数。

帧帧记录了一个声音单元，其长度为样本长度(采样位数)和通道数的乘积。

周期音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。

交错模式 数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录...

非交错模式 首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。

比特率 每秒的传输速率(位速, 也叫比特率)。如705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思，表示每秒705600bit的容量。

VBR、ABR、CBR VBR（Variable Bitrate）动态比特率。也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率。这是Xing发展的算法，他们将一首歌的复杂部分用高Bitrate编码，简单部分用低Bitrate编码。主意虽然不错，可惜Xing<u style="text-decoration: none; border-bottom: 1px dashed grey;">编码器</u>的VBR算法很差，音质与CBR相去甚远。幸运的是， Lame完美地优化了VBR算法，使之成为MP3的最佳编码模式。这是以质量为前提兼顾文件大小的方式时推荐的编码模式。 ABR（Average Bitrate）平均比特率，是VBR的一种插值参数。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR也被称为“Safe VBR”，它是在指定的平均Bitrate内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量。举例来说，当指定用192kbps ABR对一段wav文件进行编码时，Lame会将该文件的85%用192kbps固定编码，然后对剩余15%进行动态优化：复杂部分用高于192kbps 来编码、简单部分用低于192kbps来编码。与192kbps CBR相比，192kbps ABR在文件大小上相差不多，音质却提高不少。ABR编码在速度上是VBR编码的2到3倍，在128-256kbps范围内质量要好于CBR。可以做为 VBR和CBR的一种折衷选择。 CBR（Constant Bitrate），常数比特率，指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，但音质却不会有明显的提高。

有损和无损 根据采样和量化的过程可知，音频编码最多只能做到无限接近自然界的信号，至少目前的技术还不可能将其完全一样。这是因为自然界的信号是连续的，而音频编码后的值是离散的。因此，任何数字音频编码方案都是有损的，这也就意味着任何的音频都不可能完全还原出自然界的声音。在计算机应用中， PCM编码能够达到最高保真水平。它已经被广泛地应用于素材保存及音乐欣赏，包括CD、DVD以及 WAV文件等等。因此，PCM约定俗成了无损编码，但是这并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们习惯性地把MP3列入有损音频编码范畴，这是相对PCM编码的。强调编码的相对性的有损和无损，要做到真正的无损是非常困难，甚至是不可能的。就如同，我们用小数去表达圆周率，不管小数精度有多高，也只能无限地接近，而不是真正等于圆周率的值。

帧率 FPS（每秒钟要多少帧画面）；以及Gop（表示多少秒一个I帧）。影响画面流畅度，与画面流畅度成正比：帧率越大，画面越流畅；帧率越小，画面越有跳动感。如果码率为变量，则帧率也会影响体积，帧率越高，每秒钟经过的画面越多，需要的码率也越高，体积也越大。帧率就是在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次。如果限定一个码率，比如800kbps，那么帧率越高，编码器就必须加大对单帧画面的压缩比，也就是通过降低画质来承载足够多的帧数。如果视频源来自摄像头，24FPS已经是肉眼极限，所以一般20帧的FPS就已经可以达到很好的用户体验了。

码率编码器每秒编出的数据大小，单位是kbps，比如800kbps代表编码器每秒产生800kb（或100KB）的数据。如果不做码率大小上的限制，那么分辨率越高，画质越细腻；帧率越高，视频也越流畅，但相应的码率也会很大，因为每秒钟需要用更多的数据来承载较高的清晰度和流畅度。这对云服务厂商而言这是好事（收入跟流量呈正比），但对您可能意味着更多的费用开支。

分辨率 单位英寸中所包含的像素点数； VGA：Video Graphics Array（视频图像分辨率）。影响图像大小，与图像大小成正比：分辨率越高，图像越大；分辨率越低，图像越小。在码率一定的情况下，分辨率与清晰度成反比关系：分辨率越高，图像越不清晰，分辨率越低，图像越清晰。在分辨率一定的情况下，码率与清晰度成正比关系，码率越高，图像越清晰；码率越低，图像越不清晰。如果限定一个码率，比如800kbps，那么分辨率越高就会让编码器越 “为难" ，可以想象，它必须拆东墙补西墙，通过减少色彩信息或者引入马赛克这种“鱼目混珠”的手段来承载足够多的像素点。所以，同样的是2G的一个电影文件，1080p画质的版本可能不如720p画质的版本看起来更清晰。

欢迎关注公众号“音视频开发之旅”，一起学习成长。