成都海擎科技有限公司
电话:028-65065822
邮箱:cdhaiqing@163.com
联系人:袁女士
地址:成都市高新区天府三街69号
高性能异构分布式计算平台MDPP
1. 背景
为了顺应以“大数据、人工智能”为代表的第四次工业革命潮流,智能化的装备是必然的趋势,装备必须具有高效能的特点。所以具备高效能的装备系统必然是异构硬件平台,目前比较成熟的就是CPU+GPU,CPU+DSP+GPU等,为了最大充分利用异构硬件平台的资源,不仅需要对这些异构集群资源进行整体管理(统一分配和调度),还需要对业务系统的计算任务提供统一任务调度和分配。
为了落实《十三五国家科技创新规划》对异构计算和智能计算的推广应用,加快装备智能化;为了支持国产处理芯片和操作系统,实现自主可控。海擎科技特地开发了一款“海量数据高性能异构计算平台(MDPP)”对异构硬件和各种业务系统的支持,具有一定的通用性和可装备性特点。
2. 设备简介
MDPP主要目的是把海量数据处理的任务通过MDPP的并行引擎切分成小任务,再把这些小任务自动调度到各种处理器组成的异构硬件中,实现多计算机、多处理器、多核集群并行协同处理;MDPP还提供二次开发接口和通用算法库,特别是自定义算法开发组件,降低海量数据处理系统的开发难度,为应用开发人员搭建高性能与易用性之间的桥梁。
MDPP是将以千兆/万兆网络、PCIE高速总线互联的CPU、GPU计算设备形成统一的计算资源池,实现多机(计算机)、多卡(CPU/GPU/DSP/……卡)、多核(CPU/GPU/DSP/PowerPC/FPGA/MIC/ARM的多个计算核)并行处理的统一资源调度、任务调度、任务分配、数据管理和负载均衡,实现海量数据的快速分析处理。
3. 引进的必要性
随着芯片技术多样化的发展,高性能的处理器种类越来越多,包括X86 CPU、GPU、DSP、PowerPC、FPGA、MIC、ARM等。这些处理器各有优缺点,适合不同的应用场景或业务算法。CPU逻辑单元多、计算单元少,适合处理IO、逻辑复杂的算法和主控; GPU核数很多、单核性能弱,适合处理并行粒度小、并行规模大、规整的数值运算;DSP专门对数字信号处理进行了优化,适合处理信号处理等数值计算;FPGA功耗低、稳定性和可靠性高,适合低功耗情况下的数值运算。GPU由于发展迅速、生态完善、性价比高,在数据处理和高性能计算中主要采用CPU+GPU+DSP的异构并行处理作为计算资源。
4. 设备的主要功能
MDPP逻辑框图如图1 所示,共包括硬件层、并行处理框架层、并行算法层、管理客户端和应用程序五大部分。
图1 台MDPP逻辑层次结构图
4.1. 概要
a) 硬件层
硬件层由万兆网、千兆网连接的多台GPU/DSP/CPU服务器集群组成。每台服务器中的PCIE槽上,也可以混合插入GPU/DSP/CPU卡。
b) 资源管理层
资源管理层最核心的功能就是将整个异构硬件(CPU/DSP/GPU)作为整体的计算资源池进行统一的管理,实现监控、分配、调度。
c) 并行处理框架层
并行处理框架层对业务系统中的任务进行灵活的分发和调度,实现多个服务器、服务器内多个CPU、GPU、DSP处理器、处理器内多核之间三个层次的并行处理资源调度、任务调度、负载均衡、容错处理等事务,自动实现任务之间的数据流动,形成任务流,处理复杂的业务逻辑。
d) 并行算法层
并行算法层提供常用算法、算法管理、自定义算法框架。针对异构硬件,实现具体硬件的优化算法代码,提供统一的API接口供上层应用程序调用。可以提供的并行算法有:
1)数字信号处理算法支持FFT、滤波等数字信号处理并行算法。
2)矩阵运算支持矩阵的加、减、乘、转置、求逆、求模等运算。
3)数据挖掘算法提供分类(SVM、LR、NBC)、聚类(K-means、Canopy、FCM)、关联(FP-G)、推荐(UserCF、ItemCF)、降维(PCA)共10个常用数据挖掘算法的分布式并行算法。
e) 管理客户端
管理客户端通过API接口和可视化界面提供平台资源管理、资源状态(CPU/DSP/GPU)监控、任务管理、任务状态监控等功能。
f) 应用程序
应用程序在并行处理框架动态库基础上开发,实现具体的业务算法和业务逻辑。应用程序分为业务主流程和并行算法两部分,业务主流程在CPU上执行,并行处理框架自动将并行算法打包上传到各计算节点,由并行处理框架在各计算资源(CPU、GPU、DSP)上调用。
4.2. 特点
a)可装备:移动性、小型化、高效能满足体积小、功耗低,高性能的移动平台(硬件是混合异构)。MDPP采用软件异构架构,比较适合智能化装备对高性能异构处理的要求,还采用失效探测来保障计算的可靠性。
b)弹性:按需分配、即插即用、动态扩展支持计算力资源统一分配和调度,保证优先级高的业务。也可根据业务的实际需要来动态扩展。
c)协同:互联互通,提供计算力、任务的集群协同可融入到现有大数据平台中,可以与智能终端交互,达到更智能化和集群化。
d)灵活:任务、资源调度灵活任务调度也是统一进行,但是也可以根据实际情况传入一些参数进行灵活的任务调度和计算资源调度策略,支持任务流的自由流向。
e)便捷:易编程、易移植、简化部署,缩短研发周期。计算平台支持自定义算法框架和支持MapReduce编程模型,大大缩短研发周期。
f)通用性:通用架构设计,可重构和扩展性。屏蔽了硬件底层的差异性,提供通用性计算力支持。
5. 咨询
-
Ø 联系人:刘先生
Ø 联系电话:13708190139
Ø 联系邮箱: liuli@cdhaiqing.com