申威处理器上数据流运行时系统的设计与实现
TP391; 我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡.数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题.基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计...
Saved in:
Published in | 计算机工程 Vol. 49; no. 12; pp. 46 - 54 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
中国科学技术大学 计算机科学与技术学院,合肥 230026
2023
|
Subjects | |
Online Access | Get full text |
ISSN | 1000-3428 |
DOI | 10.19678/j.issn.1000-3428.0066860 |
Cover
Summary: | TP391; 我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡.数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题.基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用.实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化.实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速. |
---|---|
ISSN: | 1000-3428 |
DOI: | 10.19678/j.issn.1000-3428.0066860 |