乐思软件

提交需求|联系我们|请电400-603-8000

大数据下高性能计算的挑战

  尽管高性能计算的应用范围已经越来越广,但是其面临着大数据集带来的全新挑战。高性能计算如今要解决的计算难题极为复杂,其负载程度与十年前要解决问题的难度相比要高出多个数量级,并且复杂程度仍在不断增加,不断挑战着技术的极限。例如,当代石油物探高性能计算面临着地震勘探数据量海量增长的严峻形势。从上世纪80年代的2-36MB/km2 的2D数据,增长至3D的30-300GB/km2 。一个寻常勘探项目的原始数据通常都在十几TB左右,而要真正处理这些数据,至少要五倍于原始数据的存储空间。
  高性能计算运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算。之后,对这些小问题的结果进行处理并合并为原问题的最终结果。通常,这些小问题的计算是可以并行完成的,从而缩短问题的处理时间,提高系统的运算速度。
  高性能计算最典型的三个数据流程包括:创建输入数据、运行应用程序进行分析处理和结果归档管理。
  1. 创建输入数据:创建数据的数据安全可靠性和一致性非常重要。如果丢失了输入数据,通常可以通过重新运行应用程序,来重建丢失的数据。重新创建数据不仅费用高昂,很多高性能环境的数据往往是无法再次生成的。因此,高性能创建数据的价值往往不是能用金钱来衡量的。
  2. 应用程序分析处理:在分析处理阶段,保证执行应用程序的读/ 写性能是高性能分析效率和项目周期的关键。这可能需要使用高性能可扩展性存储系统来满足吞吐量和存储容量的需求。
  3. 数据归档:高性能环境下,不同属性的数据在数据生命周期的不同阶段体现出来的价值是不同的。归档可以释放出主存储空间,使之用于主要的应用程序和项目。如何用不同存储介质存储不同数据,是高性能环境降低数据生命周期总成本的关键。
  高性能计算的分析效率取决于计算能力、带宽和存储三方面。数据密集型计算如何保证存储为海量大数据并行处理提供稳定的性能和可扩展的容量,在存储超大规模数据量的同时,满足多节点集群计算对存储I/O 带宽的需求,是保证高性能处理能力和效率的关键。
  高性能计算集群系统中的节点,可分为计算节点和存储节点。其中,存储节点是指集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,通常需要部署并行文件系统及多台IO 服务器;计算节点功能则是执行计算。众多的计算节点带有IO 流量瓶颈问题。当承载的计算任务被分布到众多的计算节点上实现,存储最终还是要汇总到一起。高性能计算中的计算节点可以是服务器、主机、工作站甚至PC笔记本等。计算节点对统一存储的必须性要求和各节点所汇集而来的IO 流量对存储造成的冲击,是每个高性能计算中必须要考虑的因素。

集成系统网络情报信息数据库

CIO频道人物视窗
CIO频道方案案例库
大数据建设方案案例库
电子政务建设方案案例库
互联集成系统构建方案案例库
商务智能建设方案案例库
系统集成类软件信息研发企业名录