【2024 UWA SUMMIT】AI赋能超高清产业发展，超高清制播论坛成功举办

2024-12-11

以下文章来源于微信公众号——UWA世界超高清视频产业联盟

2024年11月28日-30日，世界超高清视频产业联盟（UWA联盟）在深圳举办2024 UWA SUMMIT暨世界超高清视频产业联盟会员大会。11月30日上午，超高清制播论坛成功举行。该论坛以“AI赋能超高清产业发展”为主题，来自超高清内容拍摄、制作、传播等产业链各个环节的嘉宾齐聚一堂，共话AIGC背景下我国超高清技术与AI融合发展的未来新可能。本次会议由国家广播电视总局广播电视规划院制播研究所所长宁金辉主持。中央广播电视总台超高清视音频制播呈现国家重点实验室副主任赵贵华出席论坛并致辞。

赵贵华在致辞中表示，近年来总台积极推进人工智能技术与超高清技术融合创新，一是坚持“产学研用”协同创新，发布了总台人工智能发展白皮书，科学规范人工智能在赋能媒体直播、引领媒体创新、重构媒体生态三方面的举措，积极探索推动AI规范使用，确保安全。二是推动人工智能与媒体行业的深度融合，成立了人工智能工作室，全面统筹总台人工智能发展规划、技术开发、系统建设和节目应用等工作，打造具有中国文化特色的人工智能视听节目创作平台。三是发布总台人工智能使用规范，加快推动人工智能的创新应用，严格把控内容质量，确保宣传积极健康向上向善的优质内容。四是发布首个国内媒体领域专用的大模型，推出一系列AI内容，打造多知识多模块、标准化的高质量比较数据集，为国内大模型发展提供高质量大规模安全可信的有效数据资源，保障大模型科研攻关及相关产业的生态发展。他表示，AI在给媒体发展带来严峻挑战的同时，也提供了千载难逢的重大发展机遇，要抓住机遇，乘势而上，加快人工智能技术在超高清领域的应用，为高质量发展提供新动能。

中央广播电视总台虚拟现实实验室副主任谭阳介绍了中央广播电视总台AIGC技术研发与内容生产的有关情况。当前，总台已经将AIGC技术融入到内容生产、制作等多个环节。在内容生产环节，总台开发了AIGC动画创作平台，并创作了中国首部文生视频AI系列动画片《千秋诗颂》。在内容制作环节，总台将AIGC技术应用到视频修复增强系统中，利用生成式AI技术提升视频修复增强的性能，对高价值、低质量图像进行生成式视频超分和人脸增强，可与总台现有判别式超分、插帧进行级联，提升图像清晰度和质量，极大提高了工作效率。谭阳表示，总台当前正在做AIGC内容生产平台。该平台与传统平台最大的不同在于其遵循媒体业务需求，设计文本、图像、视音频环节交互流程、打造成为多模态协同的智媒体应用，未来会逐渐覆盖到全制播场景。

UHD Forum创始人Thierry Fautier分享了人工智能在下一代媒体制作与分发过程中扮演的角色。他表示，当前UHD内容生产依然面临着诸多待解的问题：部署使用的业务模型依然不够成熟，UHD视频源仍不足，UHD内容仍需要更低成本地触达更广泛的受众，UHD需要降低超高清内容生产成本，一次生产需要满足UHD和HD两种内容产出，拍摄运动场景所需的帧率仍需继续提升。关于AI时代UHD标准的未来愿景，Thierry Fautier提出了一系列可以由AI完成的解决方案。在HDR分级方面，AI可帮助降低点播和直播视频的自动分级成本；在字幕生成方面，AI可以为任何没有字幕源的设备生成字幕；在配音方面，AI将能够为录制影片降低配音成本；在HDR和SDR转换方面，AI可助力色调映射，降低其生产成本。

马栏山音视频实验室AI首席科学家甘伟豪就“AI与音视频产业协同蓬勃发展”这一话题发表主题演讲。他表示，AI技术正在从专用领域判别式AI的1.0时代步入通用领域、生成式的2.0时代。AI技术2.0时代将给视音频制作带来全流程、全方位的生产革新。在素材采集环节，AI技术将帮助实现音频降噪、目标跟踪、人脸识别、暗光增强、噪点抑制等功能；在素材编辑环节，AI视频生成、AI渲染、AI调色、AI视频剪辑将有机会实现；在内容传输环节，AI可帮助实现低延迟编解码、内容感知编码和网络拥堵控制；在内容传播环节，AI可助力于多格式转码、自适应流媒体、实时字幕和内容审核；在内容显示环节，色彩校正及一致性、多屏互动等功能也将可通过AI实现。

他介绍道，AI技术经过发展，已经在助力内容制作流程简化等方面发挥了作用。AI视觉文本多模态大模型可以实现理解并分析视频内容，进行高效分镜、特征提取、结构化入库，可帮助视频制作、素材获取、高光提取、智能剪辑等场景实现降本增效。AIGC助力音视频内容生成，一如基于Diffusion Transform架构的视频生成模型，在视频一致性、幻觉消除、视频时长等方面都取得了很大进步。

芒果TV 首席技术专家李小红介绍了芒果TV借助AI技术辅助超高清内容快速制作、超高清修复上变幻、超高清运营成本控制等方面的最新研发和应用实践情况。李小红表示，芒果TV产品技术致力于赋能业务，提升节目生产制作播出全链路的效率，超高清建设对节目拍摄、制作和上线方面的影响降到了最低，如果采用传统的建设方式来进行超高清拍摄生产制作播出，会成为业务发展的瓶颈，所以芒果TV在全链路上进行了技术创新和突破，比如制作方面采用云制作方式，这样超高清建设没有对业务产生瓶颈，还得到了规模化地应用，目前已全面应用于芒果TV大型综艺节目生产中。

基于这样的理念，芒果TV在布局超高清内容制播方面采取了一系列措施：采用超高清云制作系统，可实现DIT多任务批量执行、云端转码效率比本地转码提升600%以上，后期在本地剪辑完成后，可上传工程文件到云端并在云端完成自动渲染合成工作，相比本地渲染效率提升40%~60%。基于AI技术，芒果TV开发了画质评分模型，设计研发了MGTV_OGC_V1画质评价数据集，以线上问卷的方式收集真实数据，以帮助平台定向优化画质，降低画质优化成本；开发技审与画质评价系统，可支持对视频进行静帧、绿屏、花屏、马赛克、卡顿、响度异常、音频反相、真伪立体声、音视频同步、容器语法等等全方位的技术诊断，支持视频压缩域检测，检测速度提升到传统检测的10倍。

天翼数字生活科技有限公司天翼高清事业部总经理唐文学介绍了AI赋能下天翼如何实现高清交互体验提升。他表示，天翼通过AI能力重构大屏产品线，构建起“1+2+3”的大屏AI+业务生态。其中“1”指代一个平台底座，可支持高噪语音识别、语音合成/声纹录制、中英文评测、语义理解/指令解析、场景化注册指令等由数字家庭大模型支撑的功能。“2”指代两种AI赋能模式，其中包括跟读打分、口语对话、健康检测、语音棋牌等AI应用和提升生产运营效率的AI能力，进而帮助用户实现价值、体验、运营三个层次的提升。

唐文学称，AI技术的使用帮助天翼实现了服务方式与服务能力的升级。对于天翼本身的运营而言，AI可自动化生成素材内容，强化大屏运营的智能调优，支持海报自动化生产、个性化内容看点生成，降低海报制作成本约70%。对于用户来说，电视机遥控器支持普通话和40种方言识别、无感切换，用户可通过点击热键实现对电视机的语音控制。

OPPO多媒体系统技术总监杨智尧分享了手机终端超高清媒体与AI超分应用探索。随着手机芯片与终端AI能力逐年提升，手机终端在利用AI技术完成视频和图像优化方面发挥的作用逐渐突显。例如，将AI引入视频效果增强的功能已经开始应用，通过规制判断器与AI场景分类，手机可在端侧完成利用传统CV算法实现视频色彩增强功能，进而实现视频清晰度、饱和度、亮度的提升。在图片优化场景中，手机可根据当前网络情况，通过端云结合的方式，对功能的执行策略进行调整，最高可实现4K原图的完整处理。

AI超分作为视频图像清晰度升级的重要方法之一，近几年吸引到众多手机厂商的关注。在视频超分应用方面，OPPO通过配合预制的应用场景判定的方式，实现了AI超分的产品落地，目前已在多款手机/平板产品上提供该能力，最高可支持视频720p内容的2倍实时低功耗超分。此外，OPPO也在尝试优化视频通话，通过对数据和模型进行专属优化，构建OPPO专属视频通话数据集，同时配合模型的精简调优，最终实现手机视频通话既省流量又清晰的使用效果。

凌云光元客视界总经理熊伟展示了AI如何赋能虚拟制作。他介绍道，数字人智能生成技术已经在电商直播领域应用并产生了不错的效果。当前，电商直播已经形成全链路标准化服务流程。在该场景中，数字人正在发挥诸多功能：可充当智能AI主播，1:1复制真人形象并与用户进行实时互动；可模拟真人音色，基于真人语音进行音色训练并可提供方言复刻；与直播间观众进行实时互动，基于商品知识库和GLM-4品牌大模型实时互动回复；充当商品知识库，通过大语言模型优化商品知识库逻辑突出商品卖点；写作商品卖点文案，通过大语言模型提供更高效准确商品卖点文案写作能力。熊伟表示，数字人主播为商户带来了高性价比的服务，真人主播下播后，数字人直播每月仍能为商家带来100万至200万的销售数据。

虚拟制作技术也在影视行业有着越来越广泛的应用。该技术原本主要用于电影等高制作成本、高质量要求的作品。现在，AI技术得以应用到拍摄场景等数字资产的生成环节，将原本需要一个月左右生产的数字资产的制作周期缩短到两三天，这也帮助了虚拟拍摄成本的大幅下滑，使虚拟制作技术越来越多地应用在短剧等低成本影视作品的拍摄中。

杭州当虹科技股份有限公司（以下简称“当虹”）副总经理陈刚介绍了当虹在利用AI技术进行超高清视频制播方面的实践探索。他表示，当虹携手中央广播电视总台、咪咕等合作伙伴，为大型赛事、综艺、活动的超高清化转播提供技术支撑。在大型国际体育赛事的直播中，当虹在羽毛球等类型比赛中设置了针孔摄像头特种机位，拍摄到了传统赛事拍摄中难以捕捉到的角度的内容，带给观众别样的观看体验。同时，为了解决针孔摄像头像素低、画质差的问题，当虹利用特种机位摄像画质增强一体机，对拍摄的画面做了AI超分、原画增强、AI插帧、背景虚化、色彩纠正等技术处理，再将增强后的画面输出给导播，实现了特殊机位的超高清拍摄。

其他场景的制播过程同样也应用了AI技术。例如，基于直播场景的AI横竖屏同播系统，可追踪视频中的画面帧出现的人物，自动裁剪为竖屏视频；可指定人物、按语音跟随输出，并可自定义裁剪分辨率，进行多画面拼接，从而实现大小屏同播同拍。又如，基于直播场景的AI演播室扩图系统，支持采用AI技术无绿幕实现全背景替换，帮助电视节目解决拍摄环境不理想的问题。

四开花园网络科技（广州）有限公司（以下简称“4K花园”）副总裁兼前端技术总工程师于路介绍了4K花园在超高清、沉浸式AIGC内容创制方面的经验。在拍摄设备方面，4K花园与广东图盛超高清视频前端系统创新中心及产业联盟国众多厂商合作，打造了4K和8K全国产广播级讯道摄像机、全国产全画幅电影级全伺服变焦镜头和全国产8K机动型广播级导播台，并完成了两辆5G+4K/8K+3D VR国造大型转播车的设计和集成工作。在应用方面，4K花园使用这两辆国产大型转播车，参与了2022/2023中超联赛、2023年秦皇岛中式台球国际大师赛、2024百花奖颁奖晚会等重大项目。在8K+VR场景开拓方面，4K花园定制开发了“满天星”8K 3D VR多机位专业直播系统，并用于央视风云《风云音乐厅》、咪咕8K VR交互体验直播“现场奔赴计划——青春活力季”等节目制作。

于路表示，当前AI技术已经植入到标准化节目的拍摄和制作流程中。例如，某些节目内容的脚本分镜设计，会采用AIGC技术辅助生成；借助AI与人工相结合的方式，可以实现更高效的4K/8K调色流程、更高质量的4K/8K超分流程；AI技术还能用于2D转3D过程中的影像深度解析，帮助内容制作者提升工作效率，大大提升节目制作技术精度并实现降本增效。

成都索贝数码科技股份有限公司（以下简称“索贝”）媒体智能实验室（MIL）主任杨瀚介绍了多媒体内容生产的AI变革。他表示，AIGC正在成为新的媒介内容生产方式，配合这一趋势，索贝开发了适配媒体工艺的视频节目生产工具APE。在语义理解方面，该工具基于大模型的能力，在原有简单标签的基础上做了进一步的提升，提出视频质量评价标签，以帮助大模型理解画面，并将标签细化到了单帧级别；在镜头语法方面，该工具可实现不同景别镜头衔接的合理性和画面间色彩色调的一致性、动静结合的一致性等。当前，市面上已经出现可灵、即梦、Open-Sora等视觉生成模型，索贝也开发了明眸视觉生成模型，可实现视频时序扩展、视频对象替换、视频风格迁移、包装效果模拟、视频过渡生成、视频横屏转竖、视频背景替换等多种功能。为方便用户实现AIGC内容生产，索贝开发了面向内容的智能创作引擎ACE（AI Creative Engine），作为生成式AI工作平台，可支持节点式编排工作流构建、多任务并发处理和算法模型数据流转，并能与传统工具集成，共同构成创作流水线。