计算,是数字世界运转的基础,如同太阳之于地球。
编者按:本文来自罗超笔记,作者:罗超,创业邦经授权转载,头图来自摄图网
元宇宙是不是伪概念不知道,但今天世界已成为数字世界却是不争事实,人们生活、工作和学习都离不开各种数字技术加持,而数字世界的底层则是依托于云的计算基础设施,说得更具体一点,就是芯片、存储、网络等计算资源“堆砌”起来的计算基础设施。
计算,是数字世界运转的基础,如同太阳之于地球。
在云计算出现前,计算机的底层计算中心是CPU以及围绕CPU这一中心的GPU、存储、网络等等被CPU调拨的计算资源。在云计算出现后,传统计算架构体系变得捉襟见肘,因其面向的是一个个物理设备,而云计算则先后经历分布式+虚拟化、资源池化两个阶段,事实上已在底层构建起一个超级计算机,客户付费后可对资源按需租用,然而这种模式是昔日计算架构体系设计者未曾考虑到的,存在很多问题。在数字化时代来临后,更多、更大、更碎的数据,实时、海量、多变的计算场景,给计算提出全新要求,特别是高性能、密集型、高韧性以及低碳化,传统的CPU计算架构如同“小马拉大车”一样倍感吃力。
这些年,国外的Amazon、微软以及国内的阿里云,诸多云计算巨头们都在探索全新的适用于或专属于云的计算体系,最新的成果来自于阿里云。
阿里云CIPU入局,CPU不再是计算的“中心”6月13日,阿里云对外发布CIPU,其全称为阿里云基础设施处理器(Cloud infrastructure Processing Units),即专用于新型云计算中心的计算管控和加速中心。
在传统计算架构中,CPU承载这一功能,既负责核心计算同时负责网络、存储等资源的调拨管控。CPU是主,其他资源是从;CPU是中心,其他资源则是外围。
依托CPU的计算架构难以支撑当下的云计算需求,一方面,云计算应对的数据密集型计算越来越多,以CPU为中心的架构导致计算和网络传输之间的时延较大。另一方面,数据中心内部的数据迁移量增多,以CPU为中心的架构无法提供高带宽。CPU限制着云计算的低延时与高带宽能力,也导致了许多常见应用通过云计算实现难度变大,比如实时音视频通讯、元宇宙XR以及正在崛起的自动驾驶等IoT云边融合应用。开发者要实现这些应用需要想方设法,开发周期、开发难度、计算成本均显著增加,行业也出现了专门解决云计算平台与应用场景间的鸿沟的PaaS类服务商。
解铃还须系铃人,要解决以CPU为中心架构的问题,需要对这一体系改组和重构。阿里云的最新解是另起炉灶,把管控中心从服务器内部的CPU,上移至服务器外的CIPU。
在CIPU中,传统CPU的功能只是其功能子集,在计算资源上支持传统CPU即插即用、虚拟化和硬件加固隔离,同时支持GPU、异构计算;在存储资源上整合SSD存储加速,网络资源上整合RDMA网络加速,且均支持虚拟化、转发加速、硬件加解密等功能。
在CIPU架构下,向下接入的是物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘还要快。当数据中心或云计算中心应用CIPU后,就可以解决当前正面临的带宽、时延、性能、能耗等核心问题,进而更好地支撑不同的云上业务,助力产业数字化升级,更好地支持已出现、未出现的科技创新应用。
看一组官方数据。
基于CIPU和飞天的新一代云计算架构体系在通用计算、大数据、人工智能等核心场景的计算测试中展现了优越的性能:
在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;
高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;
在大数据和AI等计算与数据双密集场景下,相比传统的TCP网络,弹性RDMA高性能网络的吞吐能力提升30%以上;
云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。
云计算厂商都宣称自身的计算架构有着显著的提升,最终的检验者是开发者。阿里云CIPU+飞天的新一代云计算架构体系最终效果如何,市场会给出答案,因为倘若这套架构真的可以克服以CPU为中心的计算架构在云计算上的不足,获得如此强大的效能提升,对开发者来说将意味着更好用、实用、实惠的资源,对阿里云来说则是产品具备更强性价比,这依然是云计算市场的核心竞争力。
“飞天+CIPU”,要做云计算新时代的“iOS+A”搭档?众所周知,不论什么场景下的计算都离不开软硬件的有效结合,芯片的性能一定要有软件系统算法来吃掉。摩尔定律要生效就要有市场需求来驱动,有些芯片性能不再遵循摩尔定律不是技术天花板到了,而是对于市场而言,已性能过剩。而芯片性能被吃掉,有两种方式:
一种是生态,最经典的莫过于Window-Intel构建的“WinTel阵营”,当时Intel CEO安迪·格鲁夫不断让芯片性能升级,被微软CEO比尔·盖茨不断庞大的Windows等系统软件给吃掉,这被称为“安迪比尔定律”,WinTel联盟让Intel芯片不断进步的同时,限制其他芯片的发展,移动时代高通(以及ARM阵营)与Android同样形成类似联盟。
另一种是自产自销,如苹果A处理器,华为海思,因为是自家产品,将应用场景与处理器深度结合,就可以发挥出最强性能,现在苹果A系列、M系列处理器已让Intel、高通们压力山大。阿里云的“飞天+CIPU”就是云计算领域的“iOS+A处理器”搭档模式,iOS和A处理器都是面向移动设备而生。飞天+CIPU都是面向云计算而生。
2009年,阿里云推出前,阿里就决定要自主研发大规模分布式计算操作系统“飞天”,这是一款专门面向云计算的操作系统,不是搭载在单个设备上,而是可以调动分布在全球的百万级服务器对其进行管控调度。如今飞天与CIPU软硬件结合,阿里云重新定义了云计算的计算体系架构。
CIPU本质上只是将不同的能力封装在一起——计算、存储和网络资源以及对应的加速技术行业早已应用多年。
封装并不少见,在个人计算中CPU在不断增加核心数的同时,也在封装更多能力,比如这两年流行的AI芯片将GPU等计算单元整合在一起强化本地化的AI计算,Intel在日前再度重申未来几年将用更新的制造工艺和封装技术整合高性能 CPU 和 GPU 到一个芯片。
在云计算领域,巨头们的探索同样已有多年历史。
正如阿里云智能总裁张建锋在发布CIPU时总结的那样,10多年里云计算发展走过两个阶段,第一阶段是分布式和虚拟化技术替代大型机、小型机,核心解决的是扩展性问题,企业不再需要自建机房维护,从买到租按需扩容,使用的计算资源实质上依然是一台台主机。第二阶段出现资源池化技术,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破规模和稳定性的瓶颈,可提供了超大规模的云计算服务。
“分布式+虚拟化”和“资源池化”两个阶段都是通过软件定义的方法对计算、存储和网络资源进行优化,以CPU为中心的计算架构的体系没变,只不过被云计算企业用软件去定义,让计算资源聚合起来发挥规模效应等云的优势,就像阿里云飞天做的。然而这样的模式已经很难适应今天这个时代,因为计算需求变了,更多的行业、更多的客户,更多的业务,全新的场景(如云边融合、音视频直播、元宇宙XR等等)都在上云,结果就是更加海量密集的数据以及对应的AI计算等需求,这些对云计算的低时延、高带宽、低碳化需求更高,传统架构已很难甚至无法满足。
阿里云很早就意识到以CPU为中心的传统架构支持云计算只会日益艰难,因此2015年就成立专门的技术攻坚团队,2017年推出业内首款虚拟化损耗为零的神龙云服务器,其基于CPU+FPGA方案实现对裸金属虚拟化的支持,做出了性能超越物理机的裸金属服务器,此后神龙云服务器迭代到第四代,已经做到彻底消除“数据中心税”,且性能大幅提升。
云计算在虚拟化后应用依然跑在主机上,主机要划拨部分CPU和内存资源去运行Dom0也就是特权虚拟机(其他虚拟机的管理者和控制者),这导致10%-30%的计算资源无法被售卖,增加了云计算成本,这部分成本就是“数据中心税”。
不过,单靠神龙云服务器依然有很多问题难以解决。客户对高带宽、低延时、低碳化要求更高,然而网络和存储却受限于主机侧CPU的性能,云计算服务商只能不断增加CPU核心数或增加计算频率,然而CPU核心数受限于摩尔定律成本巨大,而增加计算频率则会增加发热与功耗进而增加运营成本,这些都不符合客户的核心利益诉求。
在阿里云探索神龙服务器、弹性RDMA、自研RISC-V指令集芯片等核心技术时,全球云计算巨头自然没有闲着。
亚马逊2015年收购以色列芯片公司Annapurna labs后,面向云计算基础设施研发定制芯片,2018年发布第一代Amazon Graviton 处理器,支持该处理器的A1成为AWS上第一个基于Arm的实例,此后不断迭代,2021年12月采用5nm工艺的Graviton 3发布,性能、能耗等表现都有显著提升,可更好地支持科学计算、机器学习和媒体编码等工作负载。不过,亚马逊努力的方向依然是CPU本身,通过定制手段将这套传统计算架构体系性能发挥得更好。微软也被曝出要给云计算服务器开发定制芯片,今年还挖到了苹果半导体专家Mike Filippo从事处理器研发工作。
谷歌的方案则是另起炉灶,不再采用CPU和GPU这样的通用芯片,不用FPGA技术,而是定制适合特定计算场景的专用芯片:TPU芯片,服务于谷歌AI计算。TPU全称是Tensor Processing Unit即张量处理单元,为谷歌机器学习平台Tensorflow量身定制,相较于通用芯片更适合跑神经网络,有报道称谷歌TPU芯片在机器学习测试中超过英特尔至强CPU和英伟达GPU一个数量级。此外,谷歌也有转为YouTube等视频应用打造的视频解码芯片,如Argos。针对特定计算场景定制全新架构的芯片,这是谷歌的做法,它可以更好地满足部分场景下的计算需求,但未能一劳永逸。
亚马逊基于ARM架构的定制芯片模式未能解决“以CPU为中心的计算架构在支持云计算场景存在的先天不足”,而谷歌的场景化定制模式更是难以解决这个时代海量、复杂的通用计算难题。
亚马逊与谷歌的做法,阿里云前些年一直在做,也推出了AI芯片含光800和CPU处理器倚天710。正是因为有神龙云服务器、弹性RDMA以及平头哥芯片的积累,阿里云才可以在今天推出“CIPU+飞天”的全新架构,想要一劳永逸地构建适应AI时代的云计算架构体系:以CIPU为中心,与飞天系统软硬件结合,深度整合三大资源(计算、存储和网络)进而实现更高性能、更低延时、更大带宽、更低功耗的计算,适应高性能计算、实时化计算、数据密集型计算等主流新场景。
尽管CIPU承载着未来云计算的“计算管控与加速核心”的角色,不过这更像是一个去中心化的架构,CPU不再是主,网络、存储也不再是从,不同资源不再互相依赖意味着不会再有瓶颈。CIPU架构也可支持CPU、GPU等不同芯片以及ARM、X86等不同架构,使得不同计算资源或体系互补。
Back to Basic,阿里云如何回归云计算的本质?在发布CIPU时,张建锋表示阿里云2022年最重要策略是“B2B”,就是“Back to Basic”,回归本质,我们看到阿里云在最近一个财年首次实现年度盈利,并强调要从追求规模增长到追求高质量增长,这是其不再追求规模第一后的“回归技术本质”。
发布CIPU表明阿里云重仓算力,将云计算的本质“计算”给做好,即以客户为中心给其提供更极致的算力服务,而要做到这一点离不开回归技术这一本质,因为技术是云计算的根,资源、渠道、服务、品牌等等只能是枝叶,只有根扎得深,才可能枝繁叶茂,阿里云的Back to Basic有多重深意。
张建锋说阿里云要“坚持在技术的长征路上”,这样说是因为阿里云成立时就是技术立业,在业务中死磕技术,用技术驱动业务。从去IOE到飞天系统到建中台再到斥巨资建达摩院系统性布局基础前沿技术,一次次技术布局,都是阿里云的爬雪山、过草地。
实际上,CIPU并不是从0到1被阿里云设计出来的,而是基于此前多年自研迭代的神龙、弹性RDMA、芯片等核心技术,不断深入垂直整合演进出的结果。如同苹果做iPhone手机,前几代用的是自己的系统,却是Intel的处理器,直到2010年的iPhone 4才上马A4处理器,这是iPhone大众化的开始,移动互联网时代才真正来临。自研处理器并形成“iOS+A”的计算架构,苹果让移动计算彻底走出PC计算的“阴影”,在能耗等维度不再有缺陷,一劳永逸地解决了移动设备面临的底层问题。同理,阿里云也是想要靠底层技术来攻克云计算一直面临的架构难题。
技术的问题用技术解决,这也是阿里云一直坚持的路线。2009年决定自主研发系统飞天时,阿里云有很多开源云平台可选。从时间、成本、风险维度来考量,用成熟的开源系统是最佳选择,不过,为了确保对每一行代码有控制力,可随时随地无间断升级且实现水平扩展,阿里云却选择了更难的技术路线,自主研发,阿里云技术研发负责人蒋江伟后来曾对媒体复盘说:“如果不是自主研发,我们根本无法应对双11 32.5万笔/秒的交易创建峰值。”
云端操作系统是一个宏大的工程,阿里自研充满坎坷。经历长达三年的技术攻关、数次推倒重来,飞天和阿里云终于迎来大成,2013年阿里云发布飞天5K集群,成为全球首家调动服务器集群超过5000台的云计算厂商;2017年飞天已可将遍布全球的百万级服务器连成一台超级计算机。基于飞天,阿里云可以给客户提供全球领先的计算能力,在向数据中心、智能平台延展时游刃有余。如今与CIPU结合形成云计算新架构,将进一步提升阿里云的核心竞争力。
飞天式的技术自研路线一次次奏效,如自研数据库系统,如平头哥“铸剑”的RISC-V处理器玄铁910、云端AI推理芯片含光800,如神龙云服务器。技术的“底子”或者说“BASIC”正是阿里云一骑绝尘的关键。Gartner数据显示,2021年全球云计算IaaS市场份额中阿里云排名全球第三,已连续六年实现份额增长;亚太市场第一,市场份额为25.53%。
不只是阿里云,今天3A(Amazon AWS、微软Azure和Aliyun)云计算头部玩家都在不约而同地重注底层技术,因为所有人都知道,技术才是云计算长跑中唯一的决胜力。阿里云在保持核心技术领先的同时,更将助力中国在云计算赛道拥有核心技术话语权,正如张建锋所言:“云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”