挑战 challenges
如何降低资源总体拥有成本(tco)而不影响用户所需的计算、网络、存储和软件功能,以及让所有这些元素在不同的环境中协同工作(包括云端、内部部署,尤其是在混合云上),对于it决策者与高性能计算领导者而言始终是一项难题。当今所有人都在以数据为中心的世界中运作,各个组织必须从可用数据中尽可能获取最大价值。这意味着更多关注数据在哪里及如何收集、管理和使用。因此高性能计算hpc团队希望借助所掌握的数据做更多分析。同时,随着最具颠覆性的技术之一人工智能ai应用的快速崛起,深度学习dl能力和先进的神经网络可以解决几十年前无法想象的挑战。通常使用的 高性能计算工作负载如分析会被人工智能增强或取代。人工智能可以更好地预测和理解上下文,使用推理来填补数据空白,补充更多传统的高性能计算解决方案,比数据处理和基于分析的应用程序本身更快、更全面地显示洞察力。
随着高性能计算hpc驱动的模拟、建模、大数据分析和人工智能ai的融合,混合工作负载正变得越来越普遍。混合工作负荷中的一个步骤可能涉及建模与模拟,而下一个步骤则需要深度学习能力。传统的hpc用例(如建模与模拟)计算密集度更高,而新的工作负载(如ai)数据密集度更高。这些工作流的多样性对于未经优化的hpc系统来说是一个巨大的挑战。
解决方案 & 建议 solution
那么该如何将人工智能(ai)和大数据(big data)融合到高性能计算(hpc)环境中呢?
1
人工智能ai可以通过从有监督和无监督的例子中“学习”来解决问题,而不是依赖于一组形式化的方程或规则,从而为高性能计算和人工智能的结合提供了新的能力和机会。通过将高性能计算hpc和人工智能ai 需求与用例和需求进行映射,评估当前的高性能计算技术实现是否满足其需求,或者必须优先进行哪些更新以支持更复杂、更高要求的场景。
2
同时需要制定全面可行的高性能计算(hpc)方案。深度学习框架在最大限度发挥人工智能ai在高性能计算hpc系统上的潜力具有核心作用。tensorflow和caffe等流行框架加快深度学习培训和推理工作流的速度。在构建高性能计算hpc之前应尽可能保留当前的基础设施投资。当工作负载需要时,对所需的组件进行成本预算并优先考虑升级,建议采取阶段性的方法帮助现有的hpc基础架构不断扩展。
3
不同用户对高性能环境(hpc)和人工智能(ai)的部署有不同的需求。有些用户在科研计算等领域使用超级计算机,由许多拥有管理和发展高性能计算hpc环境所需专业知识的技术团队提供支持。而那些缺少专业技术团队的用户则需与厂商或解决方案供应商合作实现。建议先验证测试系统。测试过程有助于确定许多因素,如挑战性工作负载的性能水平是否足够,是否存在瓶颈以及获得的数据洞察力的价值。如果测试系统无法满足需要,则应重新考虑更有效的解决方案。完成高性能计算hpc实施后务必确定日常维护和管理的专家。只有拥有合适的团队和技能才能从长期高性能计算hpc投资中获得最大的收益。
4
最后从算法和数据看,目前结构化数据、非机构化数据、互联网数据、业务数据等交织在一起,如何在人工智能ai时代挖掘数据价值也是另一大挑战。另外,由于目前机器学习的算法框架有很多,比如tensorflow、mxnet、caffe、torch、theano等,这也需要“因地制宜”的选择适合的高性能计算hpc基础设施架构,才能满足差异化的需求。
高性能计算(hpc)、人工智能(ai)以及大数据(big data)平台的融合进度因各个组织而异,并由组织的需求组合与精细平衡来决定,绝非一日之功。所有建议先从小规模试点开始,找到适合自己的发展道路后,然后再逐步扩展。蓝海云领先安全的超融合一体机解决方案为大规模、多来源数据提供快速准确的分析。支持nvidia gpu智能运算,分析处理海量视频、图片及地图数据,提供数据共享交换、智能分析及数据整合等,使企业在激烈的市场竞争中保持长期可持续发展。