要说哪种技术在近年来,最为颠覆人们的生活,那一定是云计算。
早在1961年,计算机先驱John McCarthy便预言,未来的计算资源会像水、电等公共资源一样被使用。[1]
好汤不怕慢熬,当集群计算、效用计算、网格计算、服务计算等技术不断发展融合[2],集结为一个完美系统,行业便是希望能够创造出一朵天上掉下的云,让每个用户都能按需享受到云的强大能力。
作为最先进技术的集合体,变革也通常发生在此。数智经济时代,云基础设施已经成为社会的基础设施。阿里巴巴作为领先的云服务商以及英特尔作为领先的基础设施服务商,二者正期望通过端到端的全链路合作共同推动云计算产业的快速发展。
一切都是为了更好的生活
一直以来,云计算领域迭代迅速。当云诞生之初,业界实现了从单机互联到云时代,随着技术步入深水区,下一个时代当属云原生。
云原生将会彻底改变我们的生活。在云原生时代下,得益于云-边-端的算力网络,网络不再只是单独的数据传输,将是一个集通信、计算、存储为一体的信息系统,而我们也可以享受到它所带来的无缝应用体验。
云原生,即是生于云、长于云,顾名思义,它在架构设计之初,是以部署在云上为目标,充分考虑云的原生特性,去进行开发及后续运维,建立与部署更弹性、更灵活、部署更敏捷、容错性更好的平台和应用,而非将传统应用简单地迁移上云。[4]
虽说好处不胜枚举,但似乎离我们的生活甚为遥远。
真正优秀的技术,一定是取自生活中的需求,又回归于生活。云原生,便是如此,一切都是为改变生活而生。
以医疗领域为例,近年来数字化医药兴起,它关乎我们每一个人的健康。但数字化医药离不开算力支持,一旦云原生的能力不足,便会缚住手脚,更多造福人类的创新药物只会更晚出现。
但现在,有了基于至强可扩展平台的英特尔创新存储技术分布式异步对象存储(DAOS),药物探索速度便会更快,它可优化系统架构性能、实现数据加速,大幅提高生信分析相关项目的运行效率。
通过英特尔至强可扩展处理器对DeepMind AlphaFold2进行逐个模块加速,可以应对目前蛋白结构分析和大数据测序所带来的高效率、快速人工智能解析的需求。
另外,英特尔的统一编程框架oneAPI还能够打破跨架构计算的平台壁垒,释放硬件潜能,帮助产业用户加速人工智能辅助药物发现(AIDD)和计算机辅助药物设计(CADD)并创新药物研发新范式。
让数字化医药实现加速的基础,是底层技术的更新。可以说,没有云原生底层的基础设施进步,我们便无法享受到它所带来的红利。
而在娱乐方面,云原生也能更好地服务改善我们的生活。随着5G的普及,全球云游戏市场也迎来了前所未有增长。
无论是对游戏玩家,还是对游戏运营者、内容服务商、游戏开发者而言,都对云游戏有所期待。中国信通院的《全球云游戏产业深度观察及趋势研判研究报告》中显示,3年后,中国云游戏的市场规模将增长超过4倍,用户数量会达到2倍以上。
而我们不得不面对的是,云原生会与云游戏的最终体验挂钩。
在此方面,英特尔为Windows和Android云游戏平台提供全栈式硬件产品支持和涵盖PC Farm、服务器虚拟化和服务器容器的解决方案,并以其AI驱动的XeSS超级采样技术,帮助游戏实现接近原生4K分辨率的画质,为广大玩家带来更高品质的用户体验。
除此之外,英特尔还联合阿里巴巴推出的云网端融合新型计算架构“无影”云电脑共同发布了全新自研硬件终端,其基于云端一体优化协议栈设计,可以充分发挥英特尔的本地AI运算能力、AVC/HEVC低功耗低延时编码的多媒体能力和高速链接能力,打造软硬一体的无缝接入体验。
在英特尔和阿里巴巴强强联手之下,云游戏玩家将会拥有一次完美的游戏体验。
发展至今只剩下难啃的硬骨头
事实上,云原生已发展多年,但即便如此,发展过程中也难免会遇到瓶颈。
发展至今,云原生技术上的难题被逐步攻破,要实现更好的性能,现在只剩下硬骨头可啃了,这些问题需要云服务商和基础设施提供商合作解决。
其一,如果说云原生是应用的根基,那么算力将是云原生一切发展的地基,同时如何让应用更好地去运用这些算力是关键。
如今数据量暴增,算力需求持续攀升,应用性能必须随着用户的请求、系统规模的增大而扩展。
对云原生系统来说,有两个重点:一是高可扩展性,当前大部分并行应用在超过一千个的处理器上都难以获得有效的加速性能,未来的许多并行应用必须能有效扩展到成千上万个处理器上,CPU必须能够统筹好这一切[5];另外是软件体系架构,云原生对计算系统灵活性、高效性、开放性有极高要求,而计算系统也正由以总线为重心向以软件定义互连结构为重心演进。[6]
应对这种难题,选对平台是关键。
英特尔的至强可扩展处理器平台便是一个好选择。从名字中便可知,可扩展性能是其特长,代号为Sapphire Rapids的第四代英特尔至强可扩展处理器更是具备了全特性全栈式支持。
在云栖大会上,英特尔宣布其携手云计算开源社区成员在Anolis OS操作系统中引入Sapphire Rapids,包括全部处理器内置加速器以及Linux内核、基础库、用户态的工具包,并对上层应用的接口进行了充分优化。基于此系统,阿里云将推出新版本的Alibaba Cloud Linux,用于生产环境的支持。
此外,英特尔与阿里巴巴及其他生态伙伴共同加盟通用芯粒高速互连开放规范(UCIe)联盟,旨在联手打造一个的开放生态系统,通过先进封装技术集成并运作不同制程技术设计和生产的芯粒。
在软件定义方面,基于英特尔技术的网络可编程已发展为具备端到端全链路可编程的能力,这将在通用硬件架构的情况下,为网络使用者搭建一个完整的网络可编程平台,并进一步增强网络的灵活性和可扩展性。
英特尔作为云计算的开源社区创始成员之一,积极参与龙蜥开源社区建设,在一系列涵盖基础硬件平台、云原生、服务网格、容器及人工智能在内软件创新项目上深度投入,并于今年被评为首届龙蜥社区优秀合作企业。
为了让更多企业能够加入进来,英特尔携手金蝶与阿里云,共同打造基于英特尔架构的金蝶云苍穹平台,它将基于英特尔傲腾持久内存与第三代英特尔至强可扩展处理器的阿里云云原生内存数据库Tair作为PaaS平台的缓存组件,以更强持久性、更低TCO的优势,加速构建高效、敏捷、更具性价比的PaaS平台。
其二,云原生不仅对算力有很大需求,还拥有大量不同类型数据,包括标量、矢量、矩阵、空间,需要强大的计算系统应对各种类型的计算。
实际上,云原生的计算复杂度远比其他领域高,基于传统同构多核处理器的通用计算系统已无法满足应用需求。
顾名思义,异构计算就是将不同结构的器件放在一起配合计算,它是在异构多核结构计算系统基础上,根据各个计算单元计算特点或优势对应用任务合理划分与映射,以追求指标最优化的并行和分布式计算模式。这项技术早已在云原生上广泛的应用,尤其是在AI领域。
此次云栖大会上,英特尔协同阿里巴巴以英特尔数据中心Flex系列GPU支持阿里巴巴异构计算加速平台,双方的合作扩大了英特尔在AI领域的足迹。
Flex系列GPU的高性能和优秀的总体拥有成本,非常适合云工作负载如媒体传输、云游戏、人工智能、元宇宙等新兴视觉云使用场景。它能够帮助客户突破孤立且封闭的开发环境的限制,降低数据中心对于不得不使用多个分离、独立的解决方案的需求。
值得一提的是,英特尔在算力方面,还能够提供各种不同异构计算产品,包括CPU、GPU、IPU、FPGA等,拥有从云到端的全面产品组合,为不同业务和应用场景提供定制化的算力服务。同时,其跨平台编程框架oneAPI使得客户的设计能在各种异构算力上平滑移植,保证客户的设计资产被有效复用。
其三,是现阶段,要让Java高效使用SIMD(Single instruction, multiple data)向量化运算并不那么容易,这将直接影响到云原生的性能。
为了解决这种问题,阿里巴巴与英特尔双方宣布联手打造VectorAPI,在提高CPU运算效率的同时有效解决了在Java领域使用向量化计算所带来的挑战,极大地提升了Java云原生计算能力。
何为SIMD,它是做什么的?当前主流CPU硬件中,普遍存在向量化单元,可以高效执行SIMD的运算。而SIMD向量化运作已被证明可以极大地提升运算效率,在人工智能、机器学习、多媒体、大数据等领域,SIMD向量化运算可比传统标量运算获得数倍性能的提升。
但要让Java高效使用SIMD向量化运算可不是简单的工作。英特尔技术专家介绍了目前可采取的手段:一是依赖JVM实现自动向量化,但会使开发者难以精确控制整个过程;二是通过JNI调用本地实现,但会引入JNI的额外开销,同时增加系统整合移植的复杂度;三是使用Java Vector API,该方法可以解决以上大部分的问题。
结合双方优势,Vector API便应运而生。首先,英特尔团队中便拥有原生Vector API的作者,阿里巴巴JDK团队在Vector API方面也拥有丰富的经验;其次,阿里巴巴已拥有完善的CI/CD系统和完备了测试集;最后,阿里巴巴拥有丰富的应用场景来验证Vector API的效果。
Vector API能够直接带来性能方面的提升。使用Vector API实现的BLAS库,可以得到2.2~4.5倍的性能提升;在图象处理领域,使用Vector API的Sepia过滤器,可以得到最多6倍的提升;在数据库领域,数据库重新分区和线性探测Hash table可以得到数倍性能的提升;在Bit-Packing编解码加速上,解码部分可以得到3~5倍的性能提升。
而为了让Vector API更容易被使用,解决低版本不兼容的问题,阿里巴巴和英特尔目前开展的一项合作项目,帮助业界移植Vector API到主流的低版本的Open JDK,如Open JDK11,同时从应用和框架着手,推动支持高版本的JDK。
实现更为远大的目标
当一切技术问题都迎刃而解,并不代表着结束。
现如今,数据中心能耗问题已受到广泛关注。可持续发展、碳中和、碳达峰不仅成为很多国家的国策,还成为很多企业的重要发展战略。以亚马逊为例,去年计划在爱尔兰建立一座价值3.5亿欧元的数据中心,但是因为环保问题,这个计划被搁置了。
国内也陆续推出很多政策,用来实现“3060”碳中和、碳达峰一个总体规划。去年5月,多部委联合发布东数西算,它会在中期、长期改变我国数据中心的物理位置布局。国家对此计划也提出了明确要求,规定了PUE的目标值。
因此,无论出于社会责任,还是紧随规划,都应该做好云原生的碳中和。
谷歌的一项分析表明,云数据中心能源开销主要来自计算机设备、不间断电源、供电单元、冷却装置、新风系统、增湿设备及附属设施。其中,IT 设备和冷却装置能耗比重大。因此,需要首先从 IT 设备能耗和制冷系统着手,优化数据中心的能耗总量或在性能与能耗之间寻求最佳的折衷。[7]
早在2015年开始,英特尔便携手阿里巴巴展开浸没式液冷方面的合作与探索,以期通过其超高的散热效率和高可靠、高性能、高密度的特点助力打造绿色可持续发展的未来数据中心。
之后,在绿色可持续发展上跨越不断。2016年,阿里巴巴推出浸没式液冷样机,2020年实现首个5A级绿色液冷数据中心的投产。
但在发展过程中,难免会遇到挑战。浸没式液冷服务器在近年来逐步开始大规模部署的同时,依然面临着服务器硬件与液冷技术材料的兼容性、电气信号完整性和散热特性等多重挑战。
对此,英特尔从处理器定制和服务器系统开发与优化入手,突破芯片功耗和冷却两大影响算力提升的关键问题,助力阿里巴巴数据中心成功部署浸没式液冷服务系统,在提高散热能效的同时有效降低了数据中心总体拥有成本(TCO)。
讲起英特尔和阿里巴巴的故事,是一部长达十多年的云数据中心历史。未来,他们之间的“云故事”,还在继续。
文/付斌
参考文献:
[1] FOSTER I, YONG Z, RAICU I, et al. Cloud Computing and Grid Computing 360-Degree Compared[Z]. 2008.1-10.
[2] 罗军舟, 金嘉晖, 宋爱波, 等. 云计算: 体系架构与关键技术[J]. 通信学报, 2011, 7.
[3] 万晓兰, 李晶林, 刘克彬. 云原生网络开创智能应用新时代[J]. 电信科学, 2022, 38(6): 31-41.
[4] 陆钢, 陈长怡, 黄泽龙, 等. 面向云网融合的智能云原生架构和关键技术研究[J]. 电信科学, 2020, 36(9): 67-74.
[5] 姚继锋. 未来需要云计算[J]. 高性能计算机发展与应用, 2009, 1(8).
[6] Lv P, Liu Q, Wu J, et al. New generation software-defined architecture[J]. Sci Sin-Inf, 2018, 48: 315, 2018, 328.
[7] HOELZLE U, BARROSO L A. The Datacenter as a Computer: An
Introduction to the Design of Warehouse-Scale Machines[M]. 1st ed.
Morgan and Claypool Publishers, 2009.