豪迪群发器 » 热门资讯 » 用 AI 打破编解码器内卷,高通全新顶会毕业论文脑洞大开

用 AI 打破编解码器内卷,高通全新顶会毕业论文脑洞大开

发布时间:2021-10-2 ┊ 文章作者:豪迪群发

用 AI 搞视频编解码器,如今门路有点儿“野”。

插帧、多重共线性、词义认知、GAN…… 你要过这种“脑洞大开”或 AI 优化算法,也可以被使用编解码器上边吗?

比如,本来的优化算法每帧压缩到 16.4KB 后,山林逐渐越来越极其模糊不清:

但在使用上 GAN 后,不但界面更清楚,每帧图象还更变小,只必须 14.5KB 就能拿下!

又比如,用插帧的构思融合神经系统编解码器,能让全新压缩优化算法实际效果更强……

这一系列优化算法的构思,身后到底是啥基本原理,用 AI 搞编解码器,发展潜力到底有多大?

大家专访了高通工程设计高级副总裁、高通 AI 研究内容责任人侯纪磊博士研究生,了解了高通一些 AI 编解码器中的优化算法关键点和基本原理。

编解码器规范慢慢“内卷”

自然,在掌握 AI 优化算法的基本原理以前,必须 先掌握视频到底是如何压缩的。

如果不压缩,1 秒 30 帧、8bit 多通道色深的 480p 视频,每秒钟就需要传送 80 Mbps 数据信息,想在网络上即时看超清视频得话,基本上是不太可能的事儿。

现阶段,关键有饱和度子取样、帧内预测分析(室内空间沉余)和帧间预测分析(時间沉余)好多个方面的压缩方式。

饱和度子取样,主要是根据大家双眼对光亮度对色调更灵敏的基本原理,压缩图象的颜色数据信息,但視覺上依然能维持与原照贴近的实际效果。

帧内预测分析,运用同一帧中的大面积同样图形(下面的图木地板等),预测分析图象内邻近清晰度的值,得到的結果比原始记录更非常容易压缩。

帧间预测分析,用于清除邻近帧中间很多相同数据信息(下面的图的环境)的方式。运用一种名字叫做运动补偿的方式,用健身运动空间向量(motion vector)和估计值测算两帧中间清晰度差:

这种视频压缩的方式,实际到视频编解码器上,又有许多压缩工作中能够开展,包含系统分区、量化分析、熵编号等。

殊不知,据侯纪磊博士研究生详细介绍,从 H.265 到 H.266,压缩性能尽管提高了 30% 上下,但这也是随着编号复杂性提升 30 倍、编解码复杂性提升 2 倍达到的。

这代表着编解码器规范慢慢进入了一个“内卷”的情况,提高的压缩实际效果,实质上是用编解码器复杂性来互换的,并不是真真正正完成了自主创新。

因而,高通从已经有压缩方式实际上的基本原理、及其编解码器的结构下手,搞出了几类有趣的 AI 视频编解码方式。

3 个方位提高压缩性能

从总体上,现阶段的 AI 科学研究包含帧间预测分析方式、减少编解码复杂性和提升压缩品质三个方位。

“预测了 B 帧的预测”

从帧间预测分析看来,高通对于 B 帧编解码明确提出了一种新理念,毕业论文早已走上 ICCV 2021。

I 帧:帧内编号帧(intra picture)、P 帧:前向预测分析编号帧(predictive-frame)、B 帧:双重预测分析内插编号帧(bi-directional interpolated prediction frame)

现阶段的编解码大多数聚集在 I 帧(帧内预测分析)和 P 帧上,而 B 帧则是与此同时运用 I 帧和 P 帧的双重运动补偿来提高压缩的性能,在 H.265 中正式步枪适用(H.264 沒有)。

尽管用上 B 帧后,视频压缩性能更强,但或是有两个难题:

一个是视频必须 提早载入(务必提早编号后边的 P 帧,才可以获得 B 帧);另一个是依然会存有沉余,假如 I 帧和 P 帧相对高度有关,那麼再用双重运动补偿就变得很消耗。

举个例子,假如从 I 帧→B 帧→P 帧,视频中只有一个球匀速直线运动了一段距离,那麼再用双重运动补偿得话,便会很消耗:

这类情形下,用插帧好像更强,立即根据时间格式就能推算出物件活动的情况,编号测算量也更低。

但这又会产生新的难题:假如 I 帧和 P 帧中间有一个十分大的基因突变,比如球忽然在 B 帧弹上来了,此刻用插帧的功效就很差了(等同于立即忽视了 B 帧的跳跃)。

因而,高通挑选将二者融合起來,将根据神经网络算法的 P 帧压缩和插帧赔偿融合起來,运用 AI 预测分析插帧后必须完成的运动补偿:

不要说,实际效果还的确非常好,比Google以前在 CVPR 2020 上保证的 SOTA 记录更强,也需要好于当今根据 H.265 规范完成开源系统编解码器的压缩性能。

此外,高通也来尝试了一些别的的 AI 优化算法。

用“多重共线性”减少编解码复杂性

对于编解码器规范内卷的状况,高通也想起了用 AI 做响应式优化算法,来像“多重共线性”一样依据视频比特流升级一个实体模型的权重值增加量,早已有有关毕业论文走上 ICLR 2021。

这类方式代表着对于单独实体模型开展“多重共线性”,对比特流中的权重值增加量开展编号,再与原先的比特流开展一个较为。假如实际效果更强得话,就选用这类传输技术。

事实上,在没有减少压缩性能的情形下,这类办法能将编解码复杂性减少 72%,与此同时依然维持以前 B 帧实体模型做到的 SOTA 結果。

自然,除开视频压缩性能之外,单帧图象被压缩的品质也必须考虑到,终究视觉冲击也是视频压缩追求完美的规范之一。

用词义认知和 GAN 提升压缩品质

用词义认知和 GAN 的策略就非常简单了。

词义认知便是让 AI 根据人的视觉效果来考虑到,挑选出你一直在看视频时最关心的地区,并主要那一部分的比特犬分配原则。

比如你一直在看网球赛时,通常并不会关心赛事边上的观众们长什么样、景色怎样,只是更关心足球运动员自身的姿势、发球方式等。

那麼,就练习 AI,将大量的比特犬放进总体目标角色的身上就可以了,像这种:

从构造上来说也非常简单,也就是大家常用的语义分割 Mask(掩膜):

这类办法能非常好地将受关心的部分地区帧品牌提升,使我们有更强的欣赏实际效果,而不是在视频被压缩时,见到的整副图象全是“打上马塞克”的模样。

据高通表明,这类词义认知的图象压缩,现阶段早已在拓展到视频压缩上,一样是关心部分的方式,实际效果也特别非常好。

而根据 GAN 的方式,则更为专注于用很少的比特犬数转化成视觉冲击一样好的图象品质:

据高通表明,数据来源于 CVPR 中一个对于图象压缩的 Workshop CLIC,给予了大概 1600 张的高清图,运用自主研发的实体模型,能在上面练习出不错的实际效果:

也就是开始的照片实际效果,即便在尺寸被压缩后,根据 GAN 的图象或是能获得更快的视觉效果品质:

希望这种技术性能立刻运用到手机上等设施上,使我们看视频的情况下真真正正越来越流畅。

有关毕业论文:

[1]https://arxiv.org/abs/2104.00531

[2]https://arxiv.org/abs/2101.08687

参照连接:

[1]https://www.qualcomm.com/news/onq/2021/07/14/how-ai-research-enabling-next-gen-codecs

[2]https://github.com/leandromoreira/digital_video_introduction