来源:机器之心Pro【RBD-497】籠城2 三浦あいか 澤村レイコ ASUKA
小萝莉刘俊英AIxiv专栏是机器之心发布学术、时候本色的栏目。畴昔数年,机器之心AIxiv专栏汲取报谈了2000多篇本色,掩盖大家各大高校与企业的顶级推行室,有用促进了学术调换与传播。若是您有优秀的职责思要共享,宽饶投稿偶然联系报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
连年,短视频生态的赛谈迅猛崛起,围绕短视频而生的创作裁剪器具在不停披露,好意思图公司旗下专科手机视频裁剪器具 ——Wink,凭借独创的视频画质开发智力独占鳌头,海表里用户量合手续攀升。
Wink 画质开发功能火爆的背后,是好意思图在视频裁剪应用需求加快开释配景下,对用户视频画面迷糊不清、噪点严重、画质低等视频创作痛点的知悉,与此同期,也树立在好意思图影像掂量院(MT Lab)强有劲的视频开发与视频增强时候解救下,当今已推出画质开发 - 高清、画质开发 - 超清、画质开发 - 东谈主像增强、远隔率擢升等功能。
日前,好意思图影像掂量院(MT Lab)鸠聚会国科学院大学更攻击性地提议了基于 STE 的盲视频去精明 (blind video deflickering, BVD) 新要津 BlazeBVD,用于处理光照精明退化未知的低质地视频,尽可能保合手原视频本色和色调的好意思满性,已被计较机视觉顶会 ECCV 2024 汲取。
论文畅达:https://arxiv.org/pdf/2403.06243v1
BlazeBVD 针对的是视频精明场景,视频精明容易对时辰一致性形成影响,而时辰一致性是高质地视频输出的必要条款,即使是细微的视频精明也有可能严重影响不雅看体验。究其原因,一般是由拍摄环境欠安和拍摄勾引的硬件端正所引起,而当图像处理时候应用于视频帧时,这个问题时常进一步加重。此外,精明伪影和色调失真问题在最近的视频生成任务中也经常出现,包括基于生成反抗收集 (GAN) 和扩散模子 (DM) 的任务。因此在多样视频处理场景中,探索通过 Blind Video Deflickering (BVD) 来甩掉视频精明并保合手视频本色的好意思满性至关进攻。
BVD 任务不受视频精明原因和精明进度的影响,具有等闲的应用远景,当今对此类任务的矜恤,主要包括老电影开发、高速相机拍摄、色调失真处理等与视频精明类型、精明进度无关的任务,以及仅需在单个精明视频上操作,而不需要视频精明类型、参考视频输入等稀奇指令信息的任务。此外,BVD 现主要聚会在传统滤波、强制时序一致性和舆图集等要津,是以尽管深度学习要津在 BVD 任务中获得了紧要推崇,但由于缺少先验常识,在应用层面上受到较大辞谢,BVD 仍然濒临诸多挑战。
BlazeBVD: 有用提高盲视频去精明终端
受经典的精明去除要津圭表时辰平衡 (scale-time equalization, STE) 的启发,BlazeBVD 引入了直方图扶持管制决议。图像直方图被界说为像素值的散布,它被等闲应用于图像处理,以休养图像的亮度或对比度,给定轻易视频,STE 不错通过使用高斯滤波平滑直方图,并使用直方图平衡化篡改每帧中的像素值,从而提高视频的视觉安祥性。诚然 STE 只对一些幽微的精明有用,但它考证了:
直方图比像素值紧凑得多【RBD-497】籠城2 三浦あいか 澤村レイコ ASUKA,不错很好地描绘光亮和精明信息。
直方图序列平滑后的视频在视觉上莫得明显的精明。
因此,诓骗 STE 和直方图的提醒来提高盲视频去精明的质地和速率是可行的。
BlazeBVD 通过对这些直方图进行平滑处理,生成奇异帧聚积、滤波光照图和曝光掩码图,不错在光照波动和曝光过度或不及的情况下完结快速、安祥的纹理复原。与以往的深度学习要津比拟,BlazeBVD 初次详尽地诓骗直方图来镌汰 BVD 任务的学习复杂度,简化了学习视频数据的复杂性和资源豪侈,其核心是诓骗 STE 的精明先验,包括用于指令甩掉全局精明的滤波照明图、用于识别精明帧索引的奇异帧集,以及用于识别局部受过曝或过阴影响的区域的曝光图。
与此同期,诓骗精明先验,BlazeBVD 联结了一个全局精明去除模块 (GFRM) 和一个局部精明去除模块 (LFRM),有用地矫正了个别相邻帧的全局照明和局部曝光纹理。此外,为了增强帧间的一致性,还集成了一个轻量级的时序收集 (TCM),在不豪侈大齐时辰的情况下提高了性能。
图 1:BlazeBVD 要津与已有要津在盲视频去精明任务上的终端对比
具体而言,BlazeBVD 包括三个阶段:
领先,引入 STE 对视频帧在光照空间下的直方图序列进行篡改,索求包括奇异帧集、滤波后的光照图和曝光图在内的精明先验。
其次,由于滤波后的照明映射具有安祥的时辰性能,它们将被用作包含 2D 收集的全局精明去除模块 (GFRM) 的提醒条款,以指令视频帧的情愫篡改。另一方面,局部精明去除模块 (LFRM) 基于光流信息来复原局部曝光图标志的过曝或过暗区域。
终末,引入一个轻量级的时序收集 (TCM) 来处理通盘帧,其中筹办了一个自合适掩模加权亏损来提高视频一致性。
通过对合成视频、果然视频和生成视频的详细推行,展示了 BlazeBVD 优胜的定性和定量终端,完结了比开头进的模子推理速率快 10 倍的模子推理速率。
图 2:BlazeBVD 的窥察和推理过程
推行终端
大齐的推行标明,盲视频精明任务的通用要津 ——BlazeBVD,在合成数据集和果然数据集上优于先前的职责,况且消融推行也考证了 BlazeBVD 所筹办模块的有用性。
表 1:与基线要津的量化对比
图 3:与基线要津的可视化对比
图 4:消融推行
以影像科技助力出产力
该论文提议了一种用于盲视频精明任务的通用要津 BlazeBVD,诓骗 2D 收集开发受光照变化或局部曝光问题影响的低质地精明视频。其核心是在照明空间的 STE 滤波器内预处理精明先验;再诓骗这些先验,联结全局精明去除模块 (GFRM) 和局部精明去除模块 (LFRM),对全局精明和局部曝光纹理进行篡改;终末,诓骗轻量级的时序网 (TCM) 提高视频的联系性和帧间一致性,此外皮模子推理方面也完结了 10 倍的加快。
行为中国影像与筹办限度的探索者,好意思图不停推出粗浅高效的 AI 功能,为用户带来调动工作和体验,好意思图影像掂量院(MT Lab)行为核心研发核心【RBD-497】籠城2 三浦あいか 澤村レイコ ASUKA,将合手续迭代升级 AI 智力,为视频创作家提供全新的视频创作景色,翻开更弘远的六合。