拥抱智能：阿里云视频云 AI 视频编码技术的新探索与分享

作者：每日干货分享

发布时间：2025-11-03 17:43:11 浏览量：44 0

整理 |

哈喽呀，各位，我是那个叫王钊的，在阿里云视频云有着工作职位所属，今儿要和大伙分享的主题题为“拥抱智能，AI视频编码技术的新探索”，主要是打算跟大伙去介绍一下，关于阿里云视频云的那两项前沿方面的工作。

分享涵盖四部分，一部分是背景与动机，一部分是人物视频生成编码，一部分是机器视觉编码，还有一部分是未来展望。

1. 背景与动机

我会从人眼视觉方面开始，延伸进行介绍，再从机器视觉方面，继续展开延伸介绍，关于的是阿里云视频云探索AI视频编码技术的背景与动机。

视频本身，数据量极大，一张4K图像，原始大小是24.3MB，4K未压缩视频，带宽需求约为6Gbps，一个超清摄像头，每天产生的原始视频，高达63TB，只有进行视频编码，才可以传输，才可以存储。

时代在发展，智能安防场景里的视频，能被机器接收，接下来机器去感知这些视频，然后机器对视频进行理解，自动驾驶场景中的视频，也是如此，智慧城市场景中的视频一样，工业互联网场景中的视频同样是这样，均可如上述这般被机器接收、感知、理解。

以自动驾驶作例子，一辆车主要具备的系统或者设备包含摄像头系统，其作用是检测前方物体；还有夜视红外，以及雷达测距器；另外还有惯性传感器；再有GPS定位器；以及激光雷达，它能360°进行扫描，这些都是由机器采集图像和视频，之后再交给机器去进行分析，进而发现并解决问题，最终完善功能。

在某些维度方面，机器具备比人类更优的能力，像观测精度，感知灵敏度，工作强度耐受性，机器能够全天候运转，这里所说的工作强度耐受性就是指这种全天候运转的能力，还有客观性以及可量化性。

按照Cisco的统计呈现，以机器视觉作为主要方面的那种从机器朝着机器的数据传输，将会在全球数据传输里占据百分之五十的比例，这可是极为庞大的数量。

不论是人眼视觉，还是机器视觉，视频编码原理都相同，也就是依赖视频信号自身存在的相关性，一幅图像里相邻像素值相近，这属于空域相关性，相邻图像的像素值相近，这是时域相关性，要是把像素从空域转换为频域，其中依然存在相关性，这就是视频压缩的三个基本相关性，空域冗余，时域冗余，信息熵冗余，由此产生了视频编解码的三个主要模块，帧内预测，帧间预测、变换/熵编码。

冗余消除自身是无损的，视频压缩却会出现失真，失真究竟是怎样造成的呢？这是为了进一步提升压缩率，将视频信息变换到某个域上，像传统编码一般变换到频域，接着依据其重要性进行优先级排序，把优先级低的比如高频信息直接丢弃，或者通过量化操作予以消除来大幅提高压缩率，所以是量化在提高压缩率之际带来了失真。

综上，视频压缩依赖两个维度，其一为相关性的消除之事，如此不会造成失真状况；其二在于将那信息变换到某个域上，进而进行优先级排序，之后对优先级低下之信息予以丢弃、消除或者量化处理。

基于上述视频压缩原理，在过去50年里，全球视频编解码工作人员推出一代又一代视频标准，虽标准不断更新，然而基于划分、预测、变换、量化、熵编码的框架未变，去年JVET社区确定了VVC标准，在VVC之后也致力于传统编码与神经网络编码两方面的探索，国内在确定AVS3之后，也在深入挖掘传统编码与神经网络编码以期进一步提升视频编码效率。机器视觉领域当中，MPEG构建起了针对机器的视频编码工作组，也就是VCM，国内设立了面向机器智能的数据编码工作组，即DCM。

拿VVC来说，去年所制定的VVC，和2013年颁布的HEVC标准相比，尽管压缩性能提高了一倍，可是深入去研究各个模块中模式数量的改变，就会发觉帧内预测增加了许多模式，帧间预测也增加了许多模式，变换同样增加了许多模式，这表明平均每一个模式能够带来的压缩性能增益变得更小了。

对视频信号进行数学化表达的是视频编解码专家，他们依据自身所学与理解，构建出每个编码模式，每个模式的本质皆为数学模型，人们所掌握的如线性模型、指数函数、对数函数、多项式等数学模型很简单，其参数量一般是几个，最多几十个，压缩性能提升愈发困难的原因就在于此，因人们可规律化总结的数学模型相对简单，表达能力有限，然而视频内在规律性却是无限的。

从模型角度而言，基于人工智能的神经网络模型，能够凭借更多参数持续提升数学表达能力，数学领域已严谨证明，神经网络只要参数充足就能表达任意函数空间，且表达能力会随参数增多而变强，手动设置的参数仅有几个或几十个，然而神经网络设计的模型参数可达数百万个，甚至还推出了亿级参数的超大模型，从上限来讲，基于AI编码的视频压缩性能上限定会高于基于传统编码的视频压缩。

从视频信号自身冗余性的角度来看，上文所讲，传统的视频编解码，在过去的五十年当中，一直在做消除空域冗余的工作，一直在做消除时域冗余的工作，一直在做消除信息熵冗余的工作。

其实除了这三个冗余之外，对于视频压缩而言，还有其他冗余存在着很大的性能提升空间。其一为结构冗余，右下方的两朵花呈现出相似性，在编码期间，要是第一朵花已经完成编码，那么在对第二朵花进行编码时，诸多与之相关的信息便能依据第一朵花已有的编码进行推理得出，不至于进行彻底从头编码。其二是先验知识冗余，看右上边的图，当使用手将右半部分人脸遮挡住，仅保留左半，鉴于人脸具备接近对称的特性，我们仍然能够在脑海中想象出被遮挡的部分，这是由于人们的脑海中预先就存在着人脸近似对称这样的知识。那么，机器记忆也能够让先验知识得以存在，如此一来，就不需要将信息从编码的一端编码到解码的一端了。

所以，对于视频压缩而言，结构冗余很重要，先验知识冗余也很重要，传统编码并非不能利用这两者，只是人工智能在额外利用结构冗余上更高效，神经网络在额外利用先验知识冗余上更高效，且人工智能和神经网络在利用这两者上更游刃有余。

2. 人物视频生成编码

来看一个首要的简单的两帧编码问题，编码的一端先把第一张图像的信息告知给解码的一端，解码的一端已经接收了第一张图像并且将其解码出来，我们把这当作参考帧，这时，怎样去压缩当前的这一帧

在传统编码里，（右上两图）方法是把当前图像划分成一个个图像块，每个图像块于参考帧中找寻最相似的参考块，当前图像块跟参考块之间的相对位移名为运动矢量，如此便能基于参考块预测当前块的预测值，取得当前图像最具可能性的预测帧，接着将预测帧与当前帧的差值编码传送过去就行。针对图像压缩而言，视频编码的效率颇高，缘由是视频编码的时域预测、时域相关性极强。因为要编码的东西众多，像图像块划分的划分信息，每个图像块的运动信息，残差值等，所以这个码率不会很低，以至于压缩效率尽管同图像压缩相比高不少，可也无法实现超低码率。

为达成超低码率压缩，我们提出了AI生成压缩方法，右下两图不再把整张图像划分成一个个图像块，而是把它当作整体，将整张图像经由神经网络转换到某种特征域，在特征域上提取少数关键点，只需把关键点传输到解码端，解码端收到后基于参考帧就能驱动生成当前帧的图像，其中关键点数目可变，比如实例中有十个点，所以每幅图像只需传输几十个数值，码率比传统编码方式高出很多。

就整个视频而言，能够先运用传统编码去传输第一幅图像，随后借助 AI 生成编码传输后续的图像，于编码端提取每一帧的关键点传输至解码端。解码端怎样生成这一帧呢？首先提取参考帧关键点，把它和当前帧解码的关键点一同送入神经网络里，获取特征域上的稀疏运动场。两幅稀疏运动场都会被送进 Dense Net 中得到密集运动场，并且同时得到一张遮挡图。参考帧、密集运动场以及遮挡图再一同被送进生成器中，进而生成当前帧。

这是关键点在特征域的可视化结果。

第一行图像里的第一副，是参考图像以及其关键点，而第二副是当前要编码的图像和其关键点，中间十副带有颜色的图像，表示的是每个关键点在特征域上所反映出的运动信息，其中第三副反映的是整体人脸正面的运动情形，后面几副有可能反映头部外侧的运动状况，靠近右侧的几副有反映下巴或嘴唇运动情况的可能性，最后，十副特征图上的运动场会融合到一起从而得到密集的运动场。

这是在整个驱动生成的过程中每个环节的主观展示。

第一列是参考帧，第二列是当前帧，第三列是编码过去关键点之后，在解码第一步首先生成的稀疏运动场，在目前案例中，稀疏运动场对每个图像而言使用的是4

4矩阵，图中可以看到有4

4个方格，这是个稀疏的运动图，把稀疏运动场作用于参考帧、可得到第四列中当前图像的简图，能看到第四列人脸的位置与运动极其接近当前帧，只是纹理细节方面有差距，紧接着，稀疏运动场经更复杂运动模型后生成密集运动场，再把密集运动场作用于简图、得到第六列中运动场作用后的更精细图像，最后将遮挡图作用于运动场后的图、得到当前帧的生成图。

对AI生成压缩方案，在人物讲话的数据集上进行测试，能看到以下主观上的对比。

左面两列视频，是用最新的VVC参考软件编码得出的结果，右面两列，是AI生成压缩方案编码的结果，我们的码率略微低于VVC，不过能明显对比发觉，画面质量远远优于VVC，VVC自身的块效应、模糊度很重，而AI生成压缩方案，在头发、眼睛、眉毛上的细节图更优，在整个头部运动的流畅度、表情的自然度方面，也有显著提升。

这是质量对比，是在码率接近的情形之下的，能够讲已经达成了代差级别的质量提升。

在更低的码率场景下使用AI生成压缩方案会有什么效果呢？

在实验情形下，VVC码率保持恒定，AI生成压缩方案的码率变成VVC码率的三分之一，最终结果表明，生成质量依旧比VVC的画面质量更具优势。

这里的测试视频分辨率是256

256，针对这个分辨率，AI生成压缩方案只要运用3至5k的码率便能达成用户间的视频通话，据此能够推断，在弱网乃至超弱网环境里，AI生成压缩方案依旧能够支撑用户开展音视频通话。

3. 机器视觉编码

我们在机器视觉编码这项工作中的最初动机是，在当下视频应用场景里，视频编解码是分开的，视频处理是分开的，机器视觉分析也是分开的，而我们期望于未来把这几点结合起来，形成统一系统去进行端到端的优化以及训练。

我们挑选了物体检测任务，像这张图像（右上图），它或许源自监控摄像头，又或许来自自动汽车摄像头，物体检测所要做的便是判定图像里存在哪些物体，此处物体涵盖两个信息，一是物体定位(图中的方框)，二是类别识别（判断是行人、车辆等物体类别）。

选择物体检测任务，原因在于物体检测在当代机器视觉领域中，是应用最为广泛需求最为庞大的技术，其次它是众多机器视觉任务的基础，只有先完成物体检测，才能够进行姿态识别，比如只有先检测出“物体”是人，才可以进一步判断他是摔倒或者行走等其他行为，在姿态识别完成之后才可以继续做事件分析。

在编码端，神经网络会把输入图像从像素域转换到多个特征图，将这些特征图经熵编码传输到解码端以供其基于特征图进行解析，在重构出图像的时期，完成机器视觉检测任务，这是针对一张输入图像而言的,。

在编码端，我们提出创新结构的是右图，网络模型设计为先宽而后窄，机器视觉领域网络模型，一般随层数加深通道增多，如此才可使每一层更密集，视觉任务精度更高，压缩用处不大，其目的为降低码率，无法传输过多数据，那么，怎样统一压缩与视觉呢？我们有所发现，在特征通道图之间，存在着大量的冗余，存在着高度的冗余，而这些冗余信息，是能够被压缩的，所以我们把模型设计成，先宽后窄的反瓶颈结构，在基本不影响机器视觉检测精度的前提下，大大提高压缩效率。

整个系统存在着做压缩任务的情况，同时也存在着做机器视觉识别任务的情况，我们将人眼视觉的损失与机器视觉的损失放置在一起，使之形成联合损失函数，进而进行整体优化，并且提出了迭代搜索，以此来确定各损失项之间的权重关系。

在MPEG-VCM标准组上，全球很多公司进行提案。

我们的机器视觉压缩方案，与最新的VVC标准作对比，在COCO数据集上进行测试，测试结果表明压缩性能提升了41.74%。在近几次的MPEG-VCM会议上，我们的提案性能一直保持第一名。

这是性能对比的几个例子。

一幅位于左上方的图像，其拍摄所处的环境光线呈现出极度昏暗的状态，针对机器而言，存在着识别图像之中究竟有多少人的需求，在最左边的部分是truth，它能够框定人像所处的位置，并且进行““的标注，所给出的预测概率为100%，VVC以及我们所拥有的方案都运用相同的码率去压缩这样的一张图像，在解码端分别获取到经过失真处理后的解码图像。有在VVC的解码图像之上开展识别，未检测出穿红色短袖的男生，然而我们的方案可以检测出该男生，还能框出位置，作出标注“”，预测概率为98%，虽未达100%，但相较于VVC，已然提升了许多。

右下角的truth框出了六个人，同样是在相同码率的情况下对这张图像进行压缩，在VVC的解码图像之上只能识别出一个人，也就是白框所框之人，而我们的方案能够识别出四个人，与VVC相比有着非常大的性能提升。

4. 未来与展望

在人物视频编码这儿，我们有个目标，这个目标要达成多人、多物、和多运动的复杂场景里的超低码率视频通话，还要达成超低码率视频会议。

于视觉分析任务领域，我们所设定的目标，乃是达成可分离的多任务编码，编码一端为单通道，解码一端为多分支，以此来达成多任务的统一系统。