第四代英特尔至强数据流加速器,优化实时视频传输

关键字 :intelXeon

第四代英特尔至强数据流加速器,优化实时视频传输

数字视频随着新技术和新市场趋势的涌现不断向前发展。分辨率和码率的提高带来对一系列新连接标准的需求,尤其是对于互联网协议 (IP) 下视频传输标准的需求。连续几代媒体传输标准必须满足日益增长的高带宽内容需求,比如说,实时视频制作、4K 和 8K视频流,以及增强现实/虚拟现实 (AR/VR) 和 360 度视频等新兴的沉浸式内容形式。视频基础设施必须满足这些不断升级的要求,同时还要在稳定的成本范围内提供出色的观者体验,方能保持竞争力。

英特尔® DSA 是第四代英特尔® 至强® 可扩展处理器中原生的高性能数据复制和转换加速器。它优化了高性能存储、网络、持久内存和各种数据处理应用中常见的流数据传输和转换操作。英特尔® DSA 可为数据传输和转换操作带来更好表现,同时还可释放 CPU周期用于执行更高级别的功能。这一硬件平台还受益于英特尔® 以太网 800 系列网络适配器提供的高性能智能网络连接。

新一代高吞吐量、低时延服务器平台:第四代英特尔® 至强® 可扩展处理器是一个各方面都很平衡的平台,它经过全面升级并采用了众多内置加速器,可大幅提高性能、减少时延并降低成本。性能得到增强的单核执行资源和每路多达60 个内核(双路平台多达 240 个线程)的配置,带来高吞吐量和出色的能效表现。更强大的内存子系统提供多达 8 条传输速率高达 4800 MT/s 的DDR5 通道,带宽和速度较前代产品提高 1.5 倍2,使每个节点能在DRAM 中存储更多内容,从而提高视频流密度。每路多达 80 条PCIe 5.0 通道(上一代平台每路 64 条 PCIe 4.0 通道)的配置,使 I/O 速度更快、吞吐量更大,有助于为用户推送更多会话。

视频流水线中所需的大量基于软件的内存复制操作通常会占用大量处理器内核资源并产生影响视频质量的时延。通过卸载包括校验、内存比较和检查点在内几乎所有的内存传输操作,英特尔® DSA使 CPU 内核资源避免产生与数据移入和移出内存、存储和网络子系统相关的开销。英特尔® DSA 优化了跨 CPU、内存和缓存以及各种附加内存、存储和网络设备的流数据传输。这一引擎比软件快得多,因此能够降低时延;同时它能耗更低,因此有助于减少总体拥有成本 (TCO)。平台的网络 I/O 由英特尔® 以太网 800 系列网络适配器提供。适配器具备多种可优化工作负载的功能,可带来效率和性能的提升,并且支持高达 200 Gbps 的以太网带宽。这些适配器通过优化高带宽视频内容的数据包排序使吞吐量得到提升。

英特尔® 媒体传输库、英特尔® DSA 和 DPDK:为减少与在节点之间传输和接收高带宽视频相关的计算开销,英特尔® 媒体传输库提供了一条基于英特尔® 架构实现高吞吐量、低时延和高可靠性的简化路径。当从网络适配器接收到视频时,英特尔® 媒体传输库的相关功能会对 IP 数据包进行处理,并将未压缩媒体的有效负载复制到原始视频帧缓冲区。英特尔® DSA 可从 CPU 内核高效卸载上述复制操作,实现媒体数据传输和转换加速。它一方面利用数据传输功能实现易失性内存、持久内存和内存映射 I/O 之间的数据传输;另一方面,又通过非透明桥接 (NTB) 设备实现与集群中其他节点上的远程易失性内存及持久内存的数据传输,从而带来这一高性能表现。英特尔®

媒体传输库和英特尔® DSA 共同作用,可提升媒体吞吐量,同时释放 CPU 内核资源用于处理其他任务,包括执行更高级别的功能。英特尔® 媒体传输库利用开源 DPDK 和英特尔® 以太网 800 系列网络适配器,通过卸载大部分内核处理、中断处理和数据复制任务(常在收发网络数据时进行)来加速数据包传输。如图所示,这套用户空间库和驱动程序绕过了操作系统内核网络堆栈,因此避免了在用户空间和内核空间之间复制数据产生的开销,大大提高了吞吐量。

通过减少硬件和带宽占用优化成本:英特尔® 媒体传输库与英特尔® 以太网 800 系列网络适配器相互配合,共同优化多通道 IP 视频 I/O 工作流程,满足 IP 分发的制作需求。对解决方案堆栈的持续优化包括以更少的带宽和 CPU 内核支持更多视频流,以降低支持多通道输入输出的成本。

视频吞吐量性能:基于高端第四代英特尔® 至强® 铂金处理器的双路服务器验证了英特尔® DSA 在提高视频吞吐量方面的优势。测系统的硬件配置


将有效负载从 RTP(实时传输协议)数据包复制到视频帧缓冲区会消耗大量处理器资源。如表 2 和图 3 所示,在每张网卡一个内核的配置下,使用英特尔® DSA 卸载这些复制操作可以支持传输更多的1080p 60fps(即分辨率为 1080p,帧率为 60 fps)视频流。

使用每张网卡一个内核配置的接收器会话情况

单个内核上的英特尔® 媒体传输库接收器会话情况

与此同时,相关任务卸载到英特尔® DSA 后,可以用更少的内核实现更大的网络带宽(如表 3 和图 4 所示)。团队使用 54 个 1080p60fps 视频流测试了维持 200 Gbps 网络带宽所需的内核数。在仅使用 CPU 的解决方案中,需要用到 6 个内核,而且,由于该解决方案的可扩展性深受全局系统资源可用性的影响,每个内核的最大会话数从 12 个降到了 9 个。例如,多个内核同时使用 LLC 和 DDR带宽。而增加了英特尔® DSA 后,只需 2 个内核即可维持相同的工作负载吞吐量,内核用量减少了 66%。

多个内核上的英特尔® 媒体传输库接收器会话情况



多个内核上的接收器会话情况

将第四代英特尔® 至强® 可扩展处理器与 DPDK、英特尔® 以太网适配器和英特尔® 媒体传输库结合使用,可以提升视频分发流水线的吞吐量,降低时延和成本。英特尔® 媒体传输库可通过 IP网络实现基于多种标准的视频传输,并利用英特尔® DSA 这一内置的硬件加速器执行流媒体工作负载中普遍存在的内存复制操作。这些软硬件共同作用,可提升每个节点的网络带宽,并为视频工作负载提供更精简的操作。

★博文内容参考自 网站,与平台无关,如有违法或侵权,请与网站管理员联系。

★文明上网,请理性发言。内容一周内被举报5次,发文人进小黑屋喔~

参考来源

Intel: https://ark.intel.com/content/www/us/en/ark.html

评论