EPYC助推教育信息化2.0 高性能计算赋能行业变革
2020-04-10 15:53:04来源:民营经济网·民企动力
2020年作为《统筹推进世界一流大学和一流学科建设总体方案》颁布的第五年,使得今年教育备受关注。《总体方案》里确定了每5年为一个建设周期,并针对双一流大学的科学研究水平提出了详细的目标;同时《教育信息化2.0行动计划》中也明确指出,2.0时代需要将1.0时代中完成的基础建设的作用发挥出来。为了加快打造“双一流”大学的进程、迎接第一个5年目标并实现从1.0到2.0时代的跨越,各大高校过去几年间一直在积极推动着信息化建设的探索与实践。
我国从90年代开始了IDC和信息化硬件设施建设,相关数据表明,截止到90年代末全国约有500余所大学建设了完备的校园网络。
可以说,我国高校的信息化1.0始于20世纪90年代。如今,高校承载着物理、化学、药物、工程模拟等多种类密集型的科研任务,数据庞杂、场景丰富,同时引入物联网、人工智能、移动应用等新技术进行智慧校园的建设。1.0时代完善的信息建设也带来了新的问题——随着研究范围的拓宽、研究内容的深入、原始数据的累积、新数据挖掘和新技术的应用,使得数据量几何级增长,已经形成的基础设施已经赶不上了数据应用的变化,早前的基础设施的计算能力无法匹配数据的增长,而单一的模块升级又容易造成信息割裂——其实这并不仅是中国高校面临的问题,几乎全世界的高校都面临着这些问题。
教育信息化浪潮再起EPYC打破高校数字围城
以德国的乌尔姆大学为例,德国西南部的乌尔姆大学因其在电化学和相关学科方面的开创性研究而闻名。过去这所大学一直利用两个独立的云平台分别处理数据,第一个高性能计算(HPC)群集,它为学生和研究人员提供了运行复杂的量子化学和量子物理学计算的能力。第二个bwCloud(BadenWürttembergCloud)平台,为乌尔姆大学在内的巴登州教职员工、学生和研究人员提供访问操作、项目、指导工作以及诸如数据挖掘之类的应用程序,所需的计算资源权限等。这套应用已久的方案看上去灵活轻便,但是问题随着时间慢慢变得浮现出来——乌尔姆大学IT服务通信主管Stephan Wesner博士说道:“实践证明,bwCloud太小且太慢,无法满足强大的用户需求。”因为大型应用程序所需的大量内存带宽正在减慢性能,因而系统被迫依赖于服务器外部的存储。
为了解决这个问题,乌尔姆大学选择升级处理器能力强的服务器以支持大内存,并保证其平台的应用程序可以有效地管理内存。乌尔姆大学的团队测试了16款单插槽处理器后,选择了AMD EPYC系列处理器来承担平台升级改造的任务。AMD EPYC处理器作为一款高性能x86服务器处理器,其行业领先地位毋庸置疑,第二代更是经典“网红”款处理器,2倍的FLUENT计算流体动力学性能、最高提升79%的LSTCLS-DYNA有限元分析性能、最高提升72%的RADIOSS结构分析性能、达到60%的GROMACS分子动力学基准提升以及高达79%的浮点性能提升。
64位X86架构,和7纳米技术的EPYC可以提供多达32MB的三级缓存以及多达 1TB 内存容量,可根据计算需要,通过不同数量的计算核心与I/O模块搭配实现不同的规格。其许多内存通道使得乌尔姆大学完全实现在内存中运行应用程序,不仅提升了bwCloud云平台性能,更是因其解决方式实现了在同通类产品运行时成本最低。
计算能力不足的情况同样广泛存在于不同地区的其他院校,美国的俄勒冈州立大学的生命和环境科学可算是闻名遐迩;该大学的基因组研究和生物计算中心(CGRB)要处理大量的基因测序,CGRB服务于俄勒冈州的26个部门,研究人员可以访问该中心研发的4000~5000个程序。它们运行在支持5000多个处理器的分布式服务架构上,5 PB的存储空间,以及安全专用的1G/10G/40G网络。CGRB每天生成4TB到8TB的数据,大部分时间都会同时运行数千个作业。
圣母大学的研究计算中心则是为多学科提供研究环境,在科学与工程,艺术,人文和社会科学领域起到了推动作用。该大学的研究计算中心(CRC)在广泛的应用程序中支持跨关键领域(包括癌症,环境变化,全球健康等)的多样化研究基础架构。巴黎圣母院研究计算中心(CRC)支持大约2000个活跃用户帐户、200个不同的软件应用程序。为了支持他们的研究人员,CRC的50名工程师和开发人员组成的团队管理着30,000多个计算节点,并在20种不同的体系结构中拥有3-4 PB的数据。巴黎圣母院的CRC需要一个平台来支持多种软件,并满足其对流体动力学和天气建模的高存储能力要求。他们需要的HPC环境将支持每个作业500个内核,并具有扩展能力,每个内核需要2GB至3GB的内存。
二者同样面临了计算能力不匹配的困境,采用了AMD的解决方案,俄勒冈州立大学节省了服务器机房的数百万美元,使用64核128线程的AMD EPYC 760取代124核、48线程的服务器,避免了在较低线程服务器上崩溃的现象;圣母大学采用了高带宽和高速RAM的处理器 HPE ProLiant DL385 Gen10 服务器解决方案,通过构建的更灵活的体系结构执行更大的内存、高性能计算,为流体动力学等受内存限制的应用程序提供空间。
“高性能计算+”新模式 安全高校并肩先行
计算性能是数据处理的决定因素,但好的产品能否落地应用的依靠的却不仅是性能。教育信息化发展中,比计算能力更重要的就是信息安全问题。在高校的IT建设中,安全保障是优先于其计算能力的,教育信息化作为国家信息化的重要组成部分和战略,在安全方面完全遵照2017年正式开始施行《网络安全法》,明确网络安全与信息化发展并重原则,法律中明确了对于网络安全的违法行为将承担相应的法律责任。信息安全也是全世界高校都在关注的问题,美国高等教育信息化协会(EDUCAUSE)发布的2019年年度十大IT议题中第一个议题就是安全:“确保学校数据和系统的安全是极度重要的事情。威胁在不断增强,我们需要加速努力,将安全保障全面集成到IT战略和措施的各个方面。有效的信息安全战略会运用以风险为焦点的多层次战略来为学校提供安全保障”。
可以说网络安全是全球高校信息化基础建设的基础,而新一代的AMD EPYC同样在安全方面颇具优势,可为安全启动、安全内存加密、安全加密虚拟化等功能提供基础。芯片级嵌入式安全子系统提供的核心在以下方面颇具优势:I/O芯片中的嵌入式安全处理器;可用于安全加密虚拟化的509个加密密钥;内置在内存控制器中的AES-128加密引擎;CPU核心隔离不同的内存源;通过简单的BIOS设置,无需更改软件即可进行的安全内存加密等功能。可以保证核心数据的安全,为业务运营保驾护航。
劳伦斯·利弗莫尔国家实验室(LLNL)是美国最注重计算能力和信息安全的研究机构之一,它的使命是通过世界一流的科学、技术和工程来加强国家安全。同时他也是国家核安全局(NASA)的“储备管理计划”中的三个实验室之一,高级模拟和计算(ASC)计划是其中的关键组成部分,成立的ASC计划以模拟代替地下核试验。在ASC计划下,LLNL的科学家和工程师使用模型和仿真来分析和预测这些因素对核材料的性能,安全性和可靠性的影响,从而研究材料科学,流体力学和高能量密度物理学。因此,LLNL需要HPC集群的商用处理器用于仿真、数据分析和机器学习,通过在具有多达32个内核的AMD EPYC™7000系列处理器的服务器上创建170个节点的HPC群集,应用机器学习和数据分析,使研究人员能够更有效地运行复杂的多物理场模拟。而LLNL的与AMD的合作也正是说明了其研究场景下,对高性能计算在安全与性能上的苛刻要求完全可以被满足。
数据探索未来 计算驱动世界
不少影视作品将60年代“两弹一星”的研发过程称之为“算盘算出来的”过程,《我和我的祖国》《暗算》等电影中都有这一幕——国防科技战线的科研工作者为了研发原子弹,几乎所有的工作环境里都是满地的计算数据纸、算盘、草稿纸、铅笔。这样通过大量人力物力手算来协助计算机制造原子弹的“囧”境其实并非只存在于我国,实际上美国的“曼哈顿工程”也有专门的计算部门,雇佣的几千人大多数是有数学和物理背景的女性和科学家的夫人们,唯一的任务就是算数。
其实造成这样局面的主要原因是当时的计算机能力有限。尽管70多年前数据计算还是难事慢事国之重事,但是DT时代下,处理海量的数据和多样的数据结构已相对轻松。无论是我国的“两弹一星”还是美国的“曼哈顿工程”,计算机都在其中扮演了重要的角色,可以说计算机的发明是因为国防工程的建设。彼时笨重的计算机只是承担着简单的计算工作,如今,AMD EPYC 将强大的处理集中在一块小小的芯片内,在一块基板上,并排放置最多四颗芯片,每颗芯片内部为8核心,总计达到了32核心。未来,计算能力还将不断进步,而计算的创新和发展也将推动了社会甚至整个人类社会的进步。
责任编辑:张富强
免责声明:本文仅代表作者个人观点,与民营经济网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!