今年 1 月,英特尔正式推出其面向数据中心的 第豪运棋牌手机app英特尔至强可扩展处理器(代号 Sapphire Rapids )。近日,英特尔市场营销集团副总裁,中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰在媒体技术交流会上介绍说:“第豪运棋牌手机app至强可扩展处理器产品在全世界已经有超过 400 款不同设计已经开发完成, 200 余款已经出货,包括前十大云服务提供商也将在今年全年部署基于该款产品的云实例。”
Sapphire Rapids 的成功,离不开其技术迭代及创新应用带来的大服务性能提升,其中内置 加速器 便是其中最闪耀的亮点 。 在今年 1 月正式推出 Sapphire Rapids 时,英特尔公布了这七大加速器“神器”,即 加速深度学习实时推理和训练性能提升的AMX加速器,加速处理网络数据系统性能提升的 DLB 加速器,加速在存储、网络工作负载中常见的流数据移动的 DSA 加速器,加速在数据分析工作负载中豪运棋牌手机app内存占用和查询吞吐量的 IAA 加速器,加速网络吞吐量以及压缩解压缩功能的 QAT 加速器,加速平台安全性能的安全技术策略组合,以及提供高带宽内存的至强 CPU Max 系列。
其实不止 7 款加速器。 庄秉翰兴奋的分享说: “在今年 2 月我们 又有了更新,那就是推出了 集成vRAN Boost的第豪运棋牌手机app英特尔至强可扩展处理器, 该全新通用芯片将物理层加速功能完全集成到至强系统芯片(SoC)中,无需外置加速卡。 vRAN Boost 使得运营商能够在通用虚拟化平台上整合所有基站层。 未来,对这种虚拟基站,以通用的处理器来实现基站功能,vRAN Boost可以带来很大性价比的提升, 是又一 神器。 ”
为什么选择内置加速器
CPU 的发展, 一直都是朝着 核心越变越多,主频越变越高 的方向发展 。 那为什么英特尔要选择内置加速器的解决方案呢?英特尔技术专家为我们解惑说,在大数据时代,在数据中心的具体应用中,出现了一些特殊的需求,如 压缩/解压缩、加 / 解密 ,以及 内存搬移 等方面的 工作 。 对于这些工作负载来说,其实增加 CPU 核心并不一定是高效的,但是如果能够为其提供一个专有的加速器的话,反而会很高效。以前如果要处理一个工作负载,可能要堆好几个核,如果在新的第豪运棋牌手机app至强可扩展处理器平台上,通过加速器,有可能只用一个核,或是部分核就可以处理很复杂的业务。 这也是英特尔在其第豪运棋牌手机app至强处理器中不遗余力推出 7 大加速神器的原因。当然,除此之外,英特尔技术专家介绍,加速器还可以带来一个好处,也就时节能降耗。 通过增加加速器,实际上可以提升每瓦性能,也就是提升能效比 。从英特尔的角度来说,可以 通过 CPU 核心和加速器结合 ,共同实现 CPU 性能的提升。
在 CPU 中增加加速器的方法有内置和外置两种,外置加速器也就是 PCIe卡形态 。相比于外置的 PCIe卡 ,内置加速器则会给 CPU 设计带来更大的挑战。 而 Sapphire Rapids 采用的就是内置加速器。英特尔技术专家分享道,虽然增加了 CPU 的设计难处,但是内置带来的好处还是很多的。 比如可以节约功耗,因为 PCIe卡的功耗还是很高 的;而当需要走 PCIe 设备时,如果是外置加速器,带宽会导致 CPU 变得很慢,而内置加速器,它离内存更近,速度更快,可以带来大幅的性能提升。这也是英特尔选择内置加速器的关键因素之一。
那如何解决内置加速器给 CPU 带来的设计挑战。这就要说到第豪运棋牌手机app至强的又一项全新亮点了,也就是它是英特尔首款基于 Chiplet(芯粒技术)设计的处理器 ,能够在一个封装上集成多达 4 个小芯片单元,并通过 EMIB 封装技术相连接。 英特尔的技术专家表示: “ IO die未来的趋势是和 Core die 去做分解,来应对这种 设计 挑战。 ”
不过, 英特尔的加速器并不是改变算法,而是加速算法的计算。 英特尔技术专家分享说: “ 算法和计算能力,有的时候是相辅相成的,我们算得更快,客户就有动力去设计新的算法 。还有 可能是 , 以前算不过来的算法,现在有了新的硬件以后就可以算得过来。 ”
下面,我们跟着英特尔技术专家,来重点看看 英特尔的几个加速神器是如何工作的,以及又有哪些成功的豪运棋牌手机app豪运棋牌手机app吧。
AMX 、 IAA 、 DSA 三大加速神器
AMX高级矩阵扩展 加速器
AMX是创新性的第一次在 CPU 平台上应用到的用于矩阵运算的单元。 AMX 中, 引入了硬件矩阵的积存器叫Tiles , 同时 为了 配合这些硬件的寄存器 ,又加入了一些 运算的单元,以实现每一个 CPU 指令都可以进行矩阵运算。从 CPU 的角度出发, AMX 可以有效提升算力,同时 CPU 还有一个特点,它可以支持很大的内存,比起例如目前普遍的超过 8G 就要拆的设备来说,难度降低了很多。 在 AI 方面, 与前一代相比 , AMX将 PyTorch 实时推理和训练性能提升了 10 倍。
回溯以往 Intel 的 CPU , 第三代至强可扩展处理器有两个系列 , 分别是 Cooper Lake 和 Ice Lake, 支持 INT8 的 。 VNNI 指令集在 Cooper Lake 和 Ice Lake 上都支持 , 而 BF16 的数据精度只在 Cooper Lake 处理器上支持。到了第豪运棋牌手机app至强可扩展处理器 ,除了全部支持 前代所有的指令 外,新增加的 AMX计算单元支持两种数据精度,一种是 8bit 的整形数据, 另外一种是 16bit的浮点数据,称之为 BF16 。它 和普通的16bit的浮点稍有区别。
英特尔技术专家进一步解释说, 在人工智能运算领域,对数据精度的选择往往是有 一定 要求的。如果需要高精度 , 就需要数据位宽比较多的,像FP32、 FP16 这样的数据来运算;如果要求运算速度更快,可能会选择数据宽度更小的,比如 INT8 这种数据精度。通常来说,在人工智能的场景当中,一般有两种场景, 即 训练 和推理。训练 是根据数据不断迭代出一个模型来; 推理则是基于训练模型,针对 新来的场景做出判断。通常在训练的时候,希望这个模型的数据精度能得到保证, 那就 要用BF16以上的数据精度来进行运算 ; 对于推理来说,因为运算量相对比较小, 通常 用INT8就可以满足要求。
英特尔技术专家以 最近比较火的 AIGC 为例,进一步阐述 Sapphire Rapids 在提升 AI 性能方面的优异表现。事实上, AIGC 成为热点的背后是 Stable Diffusion ,它正在 驱动很多客户进行业务创新 ,以及 模型创新 ,即深度学习模型。其中 典型的两个应用场景,一个是输入文本生成高清图片,另外一个是输入图片和一些提示词生成另外一个图片。这一类生成模型,不管是Stable Diffusion, 还 是现在更火的大语言模型,从技术角度来说,里面 都 大量使用了注意力机制 。 这个注意力机制在Stable Diffusion里面的占比是比较高的,一般可以从 50%-80% 。
这个注意力机制主要包括了矩阵相乘的运算,还有大量的指数运算。 英特尔的 Sapphire Rapids 产品 中 ,AMX BF16可以用来加速矩阵计算, AVX-512 指令可以用来加速指数计算。 英特尔技术专家介绍说: “ 使用了英特尔 PyTorch扩展插件的情况下,可以在 512×512 这种图生成上,获得 3.82 倍的吞吐提升,在 720P 上可以获得 5.26 倍的吞吐提升。 ”
不过, AMX 只 是一个指令集扩展,最终执行还是在 CPU 核心上。为此 ,英特尔 增加了 AIA架构,并且增加了新的指令对加速器进行支持。 他们 在增加加速器的时候,其实在整个栈做了许多工作,包括怎么和 CPU 协作。 下面,我们来看一些豪运棋牌手机app豪运棋牌手机app,从中也可以看到 AMX 的实力如何。
AMX豪运棋牌手机app 1 : 阿里 的 地址标准化
这个业务在淘宝应用相当广泛的,每天有着千万级的服务。这个业务的关键性能指标 是 单位时间内 能够 查询 到的数量(越多越好)。 以这个需求为导向, 英特尔与阿里展开合作,基于第豪运棋牌手机app英特尔至强可扩展处理器的AMX单元 , 用到了AMX INT8数据类型的精度,同时也辅助一些 其它 的软件豪运棋牌手机app手段 ,如 软件运算时层级融合技术,以及英特尔开发的高性能运算豪运棋牌手机app库 等, 最终相比基于第三代Ice Lake的整机,提升到原来的 2.48 倍 。
AMX豪运棋牌手机app 2 : 阿里手机淘宝APP首页搜索 业务
这个业务可为 每一个客户提供推荐的定制化首页 。 服务量 相比豪运棋牌手机app 1 更多,每天服务请求数高达亿次。这个业务用到了AMX的 BF16 数据类型的精度,同时也做了一些软件方面的豪运棋牌手机app,包括操作的融合,还有在 AVX-512 深入的调优,最终性能达到了原来的 3 倍。
AMX豪运棋牌手机app 3 :腾讯太极机器学习平台支撑的 搜索 服务
腾讯太极机器学习平台支撑的搜索 服务不仅要求 搜索次数越多越好, 而且 对搜索的延时要小于5毫秒。这个业务是部署在腾讯云上的, 上两个 应用实例 则 都是部署在整机的物理机上。 通常, 云服务实例有两种 : 一种是高精度实例 ;另 一种是低精度实例 。 高精度实例采用BF16进行数据处理,低精度实例 则 选择INT8的数据进行处理。经过第豪运棋牌手机app 英特尔至强可扩展处理器豪运棋牌手机app后,包括一些软件的豪运棋牌手机app , 不仅降低了云服务实例的 CPU 数量,同时性能上也得到 很大 提升,高精实例性能是原来的3倍,低精实例性能是原来的 2 倍。
AMX豪运棋牌手机app 4 : 独立软件服务商
在这个领域,英特尔的 第一个豪运棋牌手机app豪运棋牌手机app是跟亚信做的一个针对电信智能营业厅方案的通用OCR方案豪运棋牌手机app 。 这个营业厅主要是用于电信客户在晚上提交他的身份证件或者是工商营业执照进行识别。电信这个业务每年的服务量还是很大的,它每年提供2000万次服务。 最初的合作,是 直接把 电信 的业务迁移到 英特尔 第豪运棋牌手机app至强可扩展处理器上 ,并做了一些豪运棋牌手机app,如 引入AMX进行软硬件方面的豪运棋牌手机app性能达到了 3.94 倍的提升 。后来, 为了帮助客户进行业务的迁移 ,英特尔从 第三代至强可扩展处理器迁移到第豪运棋牌手机app至强可扩展处理器上 这种代和代的迁移,也带来了性能上的提升,达到 原来的3.38倍 。
此外,英特尔还和用友合作,在 ERP 的 OCR 模块上完成 第豪运棋牌手机app至强可扩展处理器 的迁移 ,同时使用 AMX加速单元 进行调优, 结合INT8和 BF16 两种数据精度,最终性能有 2.83 倍的提升,达到了原来的 3.83 倍。 和 金蝶 的合作,也是 ERP 应用领域,主要是针对 办公领域的发票、文档、票据上面 的 文字方面识别 。不同与和用友的合作,这次进行了两步豪运棋牌手机app, 首先 是 由第三代迁移到第豪运棋牌手机app至强可扩展处理器 , 没有使用AMX单元, 而是 用它自带的AVX-512单元 ,性能也能带来 1.65倍的提升 。由于金蝶 对OCR扫描精度要求很高 , 同时 希望速度更快, 文本识别的精度、出错更少 ,于是英特尔进行了二次豪运棋牌手机app,用到 BF16数据精度 , 最终性能达到了原来的4.58倍 。
IAA 存内分析加速器
IAA( In-Memory Analytics Accelerator ) 是英特尔在第豪运棋牌手机app至强上内置的 存内分析加速 , 可提高分析性能,能同时把任务从 CPU 内核卸载,以加速数据库查询吞吐量和其它工作负载 。 这个加速器是针对大数据、内存分析类型的数据库这些数据场景。如大数据 的 典型场景就是需要对数据 进行 压缩 ,而在 使用数据时, 又 可能需要解压 、 查询 、 过滤等。这些工作都可以交由IAA加速器完成 。 好处是可以释放 CPU 的计算资源 , 同时也可以整个计算的最大性能, 有效 提升每瓦性能,提升能效比。
在 IAA加速器的软件栈 中, 最下层是IAA硬件,再往上 就是用于支持数据中心的软件,对于主流的 OS操作系统 , IAA都支持 。如 Linux操作系统 ,或 客户定制化的OS ,包括 微软的OS 、 云计算当中的K8S等 。对于 虚拟化 的产品,如 KVM、 Hyper-V 等 , IAA加速器也 可 提供技术支持。 此外,英特尔还提供了一个 比较简单 且 高效的用户态库 , 叫QPL 。通过 这个库,就可以操作IAA的硬件 。
IAA 豪运棋牌手机app : Clickhouse
Clickhouse 是专做 大数据分析的数据库。 通过对 Clickhouse 进行深度 分析, 英特尔 发现 它存在 一个痛点, 即当 对数据进行压缩/解压缩 时 ,会带来性能损失,或者说压缩/解压缩占用了 CPU 的资源,导致 CPU 不够快。基于此, 英特尔考虑 到用IAA的压缩 / 解压缩功能去加速 Clickhouse 这部分 的 功能。 具体操作上,其实就是 在Clickhouse里面加了一个支持 IAA -Deflate 的 插件。对于Clickhouse原生的支持,像 L2W 和 ZSTD 的算法, 英特尔 增加了第三个插件,就是IAA-Deflate, 它是 IAA支持的压缩算法。
我们来看豪运棋牌手机app前后的数据对比。对比的基线 是Clickhouse里使用的比较广泛的 LZ4 算法 。它是软件,豪运棋牌手机app采用了 IAA-Deflate 。针对不同查询, IAA都会有提升 , 其中Q4.1提升了 40% 。 带来性能 提升的同时, 压缩 率 提升42% ,从而大大节省了 磁盘 、 带宽 、内存的 成本 和 使用 。
DSA 数据流加速器
DSA全称是 Data Streaming Accelerator ,它主要是 针对内存的搬移和传输的操作 进行加速,可 提高存储、网络和数据密集型工作负载的性能,让数据密集型工作负载操作性能提升1.7倍。 通常,一颗 DSA可以支持 30GB/s 双向的带宽 。 如果一个 CPU 里面有四颗的话,就可以支持 120GB/s 。除此之外,利用 DSA 加速器,在处理大的数据报文的时候,可以达到 1.6 倍的性能提升以及 37% 的延时降低。 因此, 特别对于内存有需求的一些应用,DSA是一个很好的加速器 。目前,业界比较广泛应用的 DPDK、 SPDK 等 ,以及包括 英特尔自己的 软件库叫DML , 都已经集成了DSA 。
DSA 豪运棋牌手机app:体育赛事 直播或直播转播
通常 电视台 或者媒体去做体育赛事转播的时候,是 通过端侧设备录视频 ,然后利用 网络 再 传到数据中心 , 数据中心收到数据包(RTP包)之后 ,后端用户需要把内容从网络拷贝到自己的程序去处理,然后才能拿到真正的内容。英特尔把这个流程进行了豪运棋牌手机app,使用了 DSA 的 Media Transport library (这其实是一个开源项目)。从豪运棋牌手机app结果来看,当 网带宽是一定的 ,并且要求同时支持 54 路的情况下,如果用传统 CPU ,就需要 6 个 核心 ;如果用 DSA ,则 只需要两个核心, 从而 可以节省66%的 CPU 资源。
数据服务类的应用豪运棋牌手机app
除了内置加速神器之外,第豪运棋牌手机app至强可扩展处理器在很多其他的方面也依然提供了更好的性能提升。数据服务便是其中一个很重要的场景。数据服务类的应用是一个非常大范围的应用,包括内存数据库、关系型数据库、大数据分析应用,还有数据仓库的应用、 AI 的应用,以及基于数据服务类应用。除此之外,还有一些企业的关键业务系统,比如说 ERP 、 SCM 和 CRM 系统。它们的性能都非常依赖于底层硬件平台的支撑。在大数据分析当中一个经常使用的应用是 SPARK 的应用,如果说我们 CPU 核性能提升的情况下,内存带宽往往是瓶颈。
在 第豪运棋牌手机app至强可扩展 处理器 上 , 英特尔 把内存从DDR4升级到 DDR5 ,得到了 50% 的内存带宽的提升 ;同时还 从PCIe 4.0提升到 PCIe 5.0 ,带来了两倍的 IO 带宽提升。除了 CPU 核数提升之外,在 CPU 单核性能上也做了豪运棋牌手机app,如提高了 CPU 的各级缓存的大小。通过这些 CPU 内核的升级,根据多种应用的平均值,第豪运棋牌手机app至强可扩展 处理器总体上带来的是 15% 的单核性能的提升。在应用 QAT 加速时,对于数据压缩的应用,可以达到 2 倍的压缩吞吐提升。同时把计算资源交给了加速器,可以带来 95% 核占用率的降低。
豪运棋牌手机app: 国内领先的并行数据库厂商Gbase
Gbase的旗舰产品是 Gbase 8a , 这是一款 性能表现优异的并行数据库产品,在业内知名且标准的分析型数据库评测TPC-DS中排名世界第三位 。事实上, Gbase 8a只使用了 8 个节点,因此,如果是单节点性能的话,它可以算是世界第一。
Gbase 8a与 采用 第豪运棋牌手机app至强可扩展处理器 ,除了 带来的 常规 性能提升之外,还专门针对IAA加速器进行了豪运棋牌手机app。 Gbase 8a 主要是 基于两种不同的加速算法,一 种 是南大通用自研的压缩算法RapidZ, 这 是Gbase 8a 的 默认压缩算法,在没有任何加速器豪运棋牌手机app的情况下,可以获得1.58倍的性能提升;另一种 是 业内比较常用的压缩算法ZSTD,在没有进行加速器豪运棋牌手机app的情况下,可获得 1.64 倍的性能提升。在此基础上,如果使用 IAA 加速器,对于 RapidZ ,可获得 1.66倍 的 性能提升 。 同时,RapidZ为了追求高性能,在压缩率上做了一些牺牲,而基于第豪运棋牌手机app至强可扩展处理器,可以在保持较高性能提升的基础上,压缩率提高 1.51 倍。 而 对于ZSTD来说 ,则 可获得1.84倍的性能提升,并且可以达到与 ZSTD 相似的压缩率。
豪运棋牌手机app: 国产开源数据库PingCAP的 TiDB
对于PingCAP的 TiDB 来说,即便没有使用 英特尔 的加速器豪运棋牌手机app,在两个场景,一个是Sysbench的 read-only 的场景里有 1.62 倍的性能提升,而对于 read-write 的场景来说,它的性能提升是 1.43 倍 。 read-write场景性能提升的难度非常大,因为它需要写盘,而写盘的时候,其性能会受限于 IO 延迟的制约。
英特尔用 第豪运棋牌手机app至强可扩展处理器 对 TiDB 进行性能豪运棋牌手机app,而提升来源,主要是英特尔的加速器,以及更多的 核、更大的内存带宽以及单核性能的提升 。如 在第豪运棋牌手机app至强可扩展处理器上有一个叫Sub-NUMA Clustering(子 NUMA 群集, SNC ),它可以针对一些应用,将处理器的内核、缓存和内存划分到多个 NUMA 域中。因为 CPU 的核数越来越多,但是对很多应用来说,在一个 CPU 上很难把所有的核用满 。 TiDB 就是这样的一个典型应用场景, 如果它的核数超过了一定范围,它的性能很难线性增长 。这种情况下,通用的解决办法是 多实例部署 ,实现 性能扩展 。英特尔的 SNC就是针对多实例部署的场景去做的 。其实从上一代至强的 SNC 2 , 就是一颗 CPU 上可以模拟出两个 NUMA 节点变成 SNC 4 。 对于TiBD数据库来说 ,这种方式提供了很大的帮助。
结束语
庄秉翰
介绍说,
自2017年英特尔推出了第一款至强可扩展处理器以来,
在英特尔看来,目前的处理器已经不单单需要传统基础算力性能,更需要专属计算单元,以实现 AI 、深度学习等性能的成倍提升,同时还需要拥有出色的能效和成本。因此,英特尔对其第豪运棋牌手机app至强可扩展处理器构建了以结果为导向、工作负载至上的策略,及针对特定工作负载高度豪运棋牌手机app的软件,为不同工作负载和需求匹配对应的功耗和性能,并实现理想的总体拥有成本。
面对日益多元的数字化创新需求,英特尔提出XPU产品战略,打造涵盖从云到端的全面产品组合,提供从 CPU 到 GPU 、 FPGA 、 IPU 等多种异构算力资源,为不同业务和应用场景需求提供定制化算力服务。在这些产品里面, CPU 是重中之重 ,是 通用计算重要的基石和基础 。 庄秉翰 表示: “ 未来的 CPU 目标,除了对传统的虚机性能进一步提升之外,我们也会基于对这种需要更多核需求的场景,开发有针对性的新的 CPU 处理器提供。 ”