在万物互联时代,工作、生活、娱乐均被数字化包裹起来。仅以视频为例,如今每个人既是视频内容消费者,也是视频内容的创作者,影像也从720p、1080p向着4K、8K,高帧率方向发展。我们通过镜头记录生活,又使用手机、PC等加工创作,最终上传到平台或者在社交软件中进行分发、分享,还有视频通话、直播等等,一道道数据流编织出了数字时代的新“日常”。
根据Altman Solon关于 2021年全球像素和用途数据显示,全球累积产生的用户原创内容达每秒19万亿个像素,全球视频内容消费则达每秒7千亿个像素。
作为构成如此庞大数据量的个体,在处理数据时我们或许会抱怨自己的手机、PC性能不足,需要给设备更多时间,让“数据算一会儿”,但是对于处理海量数据的数据中心、企业而言,抱怨和等待并不能解决问题,甚至会影响业务进程,于是如何更加高效、高性价比的完成数据的计算、编解码、传输、存储、显示等任务,就成为了必答题。
面对挑战,解题思路各不相同,作为数字化领头羊的英特尔,也有属于自己的方案。英特尔公司市场营销集团副总裁、中国区云与行业解决方案部总经理梁雅莉表示:“放眼于日益增长的算力需求,英特尔基于 XPU战略打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源。特别地,面向云计算,我们最新的英特尔Flex系列GPU采用了突破性设计,能够更有针对性地满足现阶段的相关计算需求,助力广泛生态伙伴创新。”
英特尔数据中心GPU Flex系列(曾用代号Arctic Sound-M)于今年8月正式发布,有Flex 170/140两款型号,均基于Xe-HPG 微架构,拥有最多4个Xe媒体引擎、高达256TOPS(INT8)算力,支持AV1编解码、硬件SR-IOV等特性。
GPU Flex 170拥有32个Xe核心、32个光追核心、256-bit 16GB GDDR 6显存,全高PCIe,功耗150W。
GPU Flex 140拥有16个Xe核心、16个光追核心、192-bit 12GB GDDR 6显存,半高PCIe,功耗75W。
不仅是硬件层,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示,英特尔同步积极打造开放、全面的软件堆栈。
庄秉翰介绍到,基于英特尔的开源软件工具oneAPI,提供统一的编程架构,使开发人员可以利用oneAPI支持的开放软件堆栈,高效开展面向Flex系列GPU的设计工作。并且帮助用户开发开放的、易于移植的代码,更大限度利用多种跨英特尔硬件平台的组合,例如CPU和GPU,做到用好的工具解决好的问题,并打破跨架构计算的平台壁垒。
因此,庄秉翰提到:基于全方位的硬件和软件创新,英特尔数据中心GPU Flex系列可以灵活处理媒体处理与传输、云游戏、AI推理、VDI多种云工作负载,有效优化使用者的总体拥有成本。
先来看看“像素爆发”时代最常见的应用场景——媒体处理、传输和媒体编解码。
作为英特尔在数据中心产品中首款支持AV1编解码的GPU,GPU Flex系列还拥有多达4个Xe媒体引擎以及XMX AI加速单元。单卡能够支持多达36路视频流的1080p60转码吞吐量,以及8路视频流的4K60转码吞吐量。
GPU Flex系列不仅支持AVC(H.264)、HEVC(H.265)、VP9等编解码格式,更重要的是在相同的视频质量下,凭借基于硬件开源的AV1编码器对比AVC可降低码率,节省30%以上的传输带宽。
在英特尔的推动下,越来越多的终端设备能够支持AV1硬件编解码,同时凭借优化带宽等特性,英特尔亚洲AI及视觉计算销售技术高级总监伊红卫提到,目前已经有众多客户对AV1提出需求,特别是广电类客户。
相比NVIDIA A10,GPU Flex 140(由OpenVPL优化)的视频解码性能可以全面领先。根据英特尔公布的数据显示,在8-bit的AVC、HEVC、AV1、VP9解码测试中,GPU Flex 140性能依次达到了NVIDIA A10的4.5倍、2.6倍、4.4倍和3.5倍。并且,庄秉翰提到,Flex 140的功耗仅为竞品的一半。
在HEVC转码测试中,GPU Flex 140(由OpenVPL优化)的1080p60、4K60转码性能分别达到了NVIDIA A10的5.1倍、8倍,并且还可以支持8K60的转码。
另外,英特尔还带来了Deep Link超级编码等创新特性,可以智能调度CPU、GPU算力,提升视频处理效率,并凭借对主流媒体工具、API、框架和最新编解码器的支持,拓展应用场景。
根据英特尔合作伙伴中科大洋的分享,使用GPU Flex 140并通过英特尔oneVPL在内的英特尔oneAPI 工具套件进行优化,其LeoVideo Cloud在多媒体转码和视觉图形处理等方面能够实现解码16路4K并发或4路8K并发或 60路高清并发,以及编码6路4K并发或30路高清并发。
作为用户,我们不难察觉到如今分辨率已经成为视频内容质量的重要衡量指标,在制作、处理、传输及设备多环节的推动下,4K、8K正逐渐成为追求沉浸感的“新标准”,加速广电行业的“5G+4K/8K+AI”的战略格局发展。
随着行业对视频量与质需求的同步增长,英特尔数据中心GPU Flex系列凭借性能表现超越传统产品、性价比更优等亮点,受到了行业客户的认可。
中科大洋技术研究院院长褚震宇也提:英特尔数据中心GPU Flex 140在相近的码率和编码参数下,该GPU的编码效率与编码质量更优。
不仅是影音娱乐等场景,在混合办公新常态下,视频会议已经成为刚需,而通话的音视频质量关系着沟通效率,和关键信息传递的准确性。在数字化办公场景中,英特尔的合作伙伴亿联网络运用Flex系列GPU的能力,全面升级了视频会议系统中的音视频性能。例如使用GPU Flex硬编解相比CPU软编解能够将H.265(4K30FPS)从2路提升至19路。
亿联网络高级解决方案架构师林振鹏谈到,“利用Flex系列GPU的能力,能够更好支持4K超清视频的编解码,给用户带来更好的会议体验,同时GPU能够更好支持H.265等新兴的编解码技术,从质量、性能、带宽等多角度全面升级亿联视频会议的服务能力。在功能应用上,Flex系列GPU是业内少数几家能够完整支持解码、混屏、缩放、编码应用的GPU,更完整支持我们的视频编解码业务要求。”
在视频影像行业中还有多个重要应用场景,不仅是发挥了Flex系列强大的媒体处理性能,还有AI推理能力。GPU Flex系列拥有XMX矩阵扩展计算单元,提供256TOPS(INT8)算力,结合OpenVINO框架、Xe媒体计算引擎,在AI视觉推理场景中,相比NVIDIA A10具备显著性能优势。
据庄秉翰介绍,GPU Flex 170在多种不同编码格式、AI模型的组合中性能表现十分出色。如目标分类(HEVC+Resnet50)、目标检测(HEVC+SSD-MobileNet)、目标检测(AVC+Yolo-V5)三项测试中,GPU Flex 170分别领先35%、33%、55%。
所以在老片修复、4K场景生成等场景中,GPU Flex系列可以带来显著效率提升。当虹科技解决方案总监郑晓玲表示,“以第三代英特尔至强可扩展处理器和英特尔数据中心GPU Flex系列170为硬件基础,以英特尔oneAPI工具套件和英特尔分发版OpenVINO工具套件为软件基础进行编程和优化,使AI老片修复更加多样化、高效化和智能化。”
郑晓玲介绍到,AI老片修复运用的AI技术主要包括AI插帧、AI HDR转换、AI超分、AI画质增强以及AI编码等五项,涉及媒体数字化、数字媒体修复、色彩修复、数字媒体增强等多个环节,期间不断的编解码。作为当虹科技的优势,便是利用了英特尔Flex GPU的技术,实现了跨架构的CPU+GPU模式,并配合英特尔OpenVINO工具套件,优化AI修复模型,进行不提升效率。
郑晓玲提到,传统老片修复需要人工一帧帧修复,一天工作人员能够完成20-30帧,90分钟的影片通常需要几个月时间完成修复,如今利用AI辅助老片修复工具,效率能够大幅提升。比如60分钟视频通过搭载GPU Flex系列的1U服务器就能在20分钟内完成高清/标清视频转成4K HDR视频。
除了媒体处理与传输、AI推理外,英特尔GPU Flex在云游戏、虚拟桌面基础架构(VDI)等应用场景下也能带来大幅升级,并优化客户的总体拥有成本。
在游戏场景下,GPU Flex 170/140支持渲染最多68/46路720p30数据流、最多60/20路720p60数据流,而且可以最多6卡并行。庄秉翰提到,两张Flex 170就可以同时支持120路以上安卓云游戏,并且根据英特尔公布的测试结果,在《王者荣耀》、《狂野飙车9:竞速传奇》等多款游戏测试中,GPU Flex系列在720p分辨率下,帧数可以达到68,甚至还可以在1080p下提供28帧云游戏体验。
火山引擎系统架构师梁宇在分享中提到,在安卓云游戏解决方案中有来自安卓实例的成本、硬件编码能力、端到端延迟等多项挑战。其中,英特尔GPU Flex系列凭借自带硬件编解码能力,十分有助于软硬件整合及成本控制。
在火山引擎技术支持的《航海王热血航线》游戏测试中,在720p60帧的场景下,单张Flex 140的GPU编码达到60路,渲染为20路。在1080p60帧下,编码达到28路,渲染为10路。梁宇表示,同样是在75W功耗,GPU Flex 140在720p60帧场景测试中,渲染及编码能力均高于对比参考GPU(12路编码、12路渲染)。
目前,英特尔已经在全球范围内验证超过90款游戏,都能提供稳定的云游戏体验。而且,英特尔长期在云游戏市场的积累,也构建了广泛的生态合作。作为游戏玩家,未来我们或许可以真的摆脱终端设备的性能限制,借助轻量化终端更畅快、更具沉浸感地享受大型游戏。
此外,关注英特尔显卡的用户对于XeSS超采样并不会陌生。Flex系列通过支持XeSS可以在保证画质相似的情况下缩短渲染时间,从而运行更顺畅,此技术同样用于视频分辨率提升、老片修复等场景。
最后再来说一下GPU Flex系列在虚拟桌面基础架构(VDI)方面的优势。庄秉翰提到,GPU Flex系列支持硬件SR-IOV,当客户通过Flex系列时,由于是硬件虚拟化,所以不需要软件虚拟化的许可费,性价比可达2-3倍,有效节省总体拥有成本。目前已经有很多云服务合作伙伴、厂商表露浓厚兴趣。
写在最后
如今英特尔独显已经覆盖了更多领域,并且在完善产品的同时稳步拓展生态,覆盖更广泛应用场景。与此同时,应对快速增长的算力需求,英特尔基于 XPU战略打造了跨CPU、GPU、FPGA、IPU等多种架构的算力资源,摆脱了单一计算架构的限制,带来了更灵活的产品结构和方案组合。
梁雅莉表示,面向云计算,英特尔的Flex系列GPU系列采用了突破性设计,是更针对现阶段的计算需求所打造的。此外,它也是一个非常开放的生态,而且是基于一个易于移植的代码,可以更大限度的利用多平台、跨英特尔硬件平台的组合。可以在英特尔的CPU和GPU之间实现一个非常灵活的扩展,这是面向未来的一个数字世界的策略。
英特尔已经与思科、戴尔、新华三、联想、宝德等合作伙伴携手推出了超过15款基于Flex系列GPU的系统设计。与当虹科技、中国联通、中科大洋、字节跳动火山引擎等众多生态伙伴带来了丰富用例。这也让我们对未来英特尔数据中心GPU将如何加速数智化创新,赋能合作伙伴探索、拓展应用场景,带来创新体验,更加期待!
相关阅读