高性能计算平台|通过算力资源的充分利用,让仿真效率大幅提升_每日速读
工业产品研发是一种知识密集、技术密集、高投入、高附加值的高技术产业,其具有发展周期长、科研投入高,技术综合性和对抗性强,预研究成果筛选率高和研制风险大等特点。其成本过高的一个重要原因是必需进行大量大尺寸的试验,且随着产品性能的不断提高,这一投入还在急剧增加。而在此方面,计算机仿真具有巨大的优势:可以减少试验工作量,有效降低研制费用,缩短研制周期。
随着仿真设计工作对精度要求越来越高,分析模型逐步精细化,从原始的经验公式估算或一维计算到当前的三维实体高仿真度的精细化模型计算。仿真类型也不断扩大,从简单的结构静强度分析,到三维散热分析、冲击动力学分析、系统级特性分析等多种不同仿真分析过程。随着仿真要求的提高、仿真模型网格量的增加、计算量的增加,工程师个人计算机已经无法满足大量的仿真计算需求。所以需要搭建高性能计算平台来满足日益扩张的仿真计算需求。
(相关资料图)
当前市面上已经有一些通用的高性能计算平台,但是这些平台大多功能集中在作业提交、资源管理和资源监控上,不能够完全满足当前产品研发过程中仿真设计的动态提交需求。不足的地方主要体现在如下几个方面:
工具接口缺乏:平台虽然提供通用的仿真工具提交功能,但没有针对这个特定的仿真工具进行集成,需要用户对仿真工具提交命令较熟悉,而不同的仿真工具的提交命令又都不尽相同。
作业提交繁琐:平台一般采用B/S架构,需要用户自己进入网页端并选择上传对应的求解文件进行提交求解,操作过程不符合仿真用户使用习惯,没能从用户软件使用习惯出发,与对应的仿真工具深度融合。
可视化数据展示效果单一:用户对于数据的可视化展示要求越来越高,需要高性能平台能够美观高效的展示过程数据,如VNC监控计算过程中的实时数据等,需要平台能够支持不同工具对应数据的动态展示。
与其他信息化系统数据互通困难:高性能计算平台一般是独立提交作业和数据监控,实际应用中可能会存在需要与协同研发平台等信息化系统进行数据互通,而这些数据接口需要定制。
功能扩展与定制能力较弱:随着集成工具软件的不断增多,数据展示的需求越来越强度,需要平台提供二次开发接口来满足大量的定制化需求。
PART 01
产品优势及相关功能
以仿真服务引擎为核心,与企业集群计算架构集成,为中小企业提供高效、轻量、开放的工业仿真基础环境;对安全要求较高的研发机构,基于该基础框架可搭建企业仿真私有云平台,高效共享企业的仿真资源。平台运行逻辑与架构如下:
图1平台运行逻辑与架构示意图
高性能计算调度平台典型的使用流程首先设置作业参数并提交作业,然后可以监控作业的运行状态,之后通过远程会话节点远程查看计算结果并下载结果文件。
计算资源管理
高性能计算平台将常规的硬件资源管理功能和可视化动态显示技术进行融合,让用户更直观的对硬件资源进行统一管理,包括计算机集群中各计算机的CPU利用率、内存占用率、进程数、僵尸进程数等进行可视化动态展示。支持用户进行计算机集群的动态配置和灵活扩展。
图2计算资源管理示意图
资源监控与告警
平台根据接入的各计算机进行数据统计形成完成的全局硬件资源管理与监控。模块支持对所有计算节点以列表形式进行信息数据查看。支持以不同形式对数据进行筛选查看和查找。支持对选择单个高性能计算机图形化查看相关数据。
计算资源告警根据用户配置的告警条件结合当前的计算资源状态进行可视化提示,支持对告警信息进行日志管理,支持用户分时段、分告警等级等方式进行可视化告警信息查看。计算资源告警条件配置模块具有可配置的报警机制,让平台在达到一定条件后及时报警通知系统管理员进行处理。用户可根据需求自定义报警条件来约束平台进行报警。
作业任务提交
高性能计算平台采用插件开发技术对作业提交模块进行开发,针对不同的仿真计算工具进行定制化作业提交集成界面开发,用户通过交互操作就能够完成快速提交设置,从而实现高效的可视化作业提交。
批量仿真分析提交主要解决用户对同一种工况要计算多次,且并行计算的情况。模块提供表单方式进行作业任务定义,基于表单实现一键后台提交。
智能任务调度
任务调度支持管理员手动强制调度和系统基于预制策略的智能后台自动化调度。管理员可对当前计算节点中作业任务队列下的任务进行排序,提升某些作业任务的优先级,支持正在计算的作业进行挂起/暂停。自动化调度策略主要根据预先设置的常规调度策略后台自动化执行,来先服务、用户特权优先、最大用户资源限制等调度策略,从而实现后台自动化对当前计算环境进行调度。
远程会话与模型处理
为方便用户对远程数据进行处理和动态查看,高性能计算平台实现基于远程数据处理技术和VNC技术的远程数据可视化查看功能,支持计算过程可视化查看、数据结果查看、曲线结果查看、云图结果查看、动画结果查看等。
图3远程会话示意图
高性能计算平台结合仿真工具二次开发集成技术,实现将作业提交和作业监控功能嵌入到仿真工具中,将高性能计算平台与仿真工具无缝集成,实现基于当前仿真工程的自动化提交,更符合仿真工程师使用习惯,提高工程师设计仿真效率。当前高性能计算平台集成的提交组件都配置了对应了嵌入式插件,用户可根据需求进行动态配置。
图4仿真工具无缝融合示意图
其他信息化系统接口
高性能计算平台可以提供与其他作业相关的信息化系统(如LSF、PBS等系统)接口,实现作业统一管理。高性能计算平台也可通过暴露的集成接口被其他PDM系统、集成研发系统等信息化系统集成,并通过单点登录技术实现基于用户和数据的无缝集成。
二次开发扩展
高性能计算平台平台基于成熟IDE框架进行开发,支持跨平台特性。主要包括的二次开发方式:
1、基于SDK框架的二次开发方式:能够从平台底层实现快速的组件和算法插件扩展开发。
2、基于脚本的动态插件开发方式:能够在非编译条件下实现快速的工具封装和组件扩展。
PART 02
某能源单位高性能调度平台案例
业务现状
仿真工程师需要进行结构、散热、电磁等大量的模型仿真验证,这些仿真需要大量的计算硬件资源,而当前已有三台高性能计算服务器没有充分利用起来,主要包括如下几点:
1、高性能计算服务器相对比较分散,一般采用拷贝工程文件到高性能计算机中进行手动计算,没有一个系统能够监控这三台高性能计算机。
2、高性能计算机的CPU使用情况、内存占用情况如法知晓,所以多余提交仿真任务时有可能照成CPU负载过大和内存超出。
3、对于长期使用的高性能计算机,由于存在一些“僵尸进程”,或者计算过程“垃圾”占用内存,需要能够远程对高性能计算机进行开机、关机、重启等操作。
4、针对高性能计算机的硬件资源(CPU核数、内存等)若占用量过大时,能够自动化的提示用户(告警),方便用户提交到其他计算机或者暂缓提交仿真作业任务。
5、应当支持用户对告警提示的内容和告警条件进行设置,如CPU核数使用率操作90%等条件就告警提示用户。
客户价值
仿真工程师在本地无感提交仿真作业任务,支持不同仿真工具的批量化自动提交,在本地计算机对仿真过程的监控和操作,计算资源的最大化利用,在本地计算机实现大文件结果数据的查看,无缝衔接云弹性服务器。
图5应用场景
1、改变当前本地化仿真计算的业务现状,提升仿真计算效率,最大化利用仿真计算资源;
2、仿真工程师能够一键批量提交仿真作业,针对自己的仿真作业随时监控计算状态。完成仿真计算后实现轻量化查看结果数据;
3、实现不同仿真模型存在仿真工具不统一、模型版本不统一,保证异构仿真模型的一体化作业提交与管理;
4、实现仿真计算过程中的暂停/挂起与继续计算,而不影响整个计算进程;
5、实现异构模型远程数据的轻量化提取,实现本地查看大模型数据。
PART 03
建设成效
安世亚太高性能计算平台可通过对集群计算资源进行远程实时调度,实现算力资源的充分利用,在确保仿真置信度和仿真结果精度的基础上大幅减少仿真时间,提升仿真计算效率。通过多年的产品积淀,完成了各类CAE仿真工具的调度,后期将基于客户需求对相关功能模块进行持续优化。
更多
标签: