快科技讯 11月12日,摩尔线程宣布正式开源高性能线性代数模板库MUTLASS,方便开发者更高效地编程摩尔线程GPU MUSA Core、Tensor Core等单元,并基于国内算子加速GPU。开发和算法创新。
此前,Moore Threads 已先后开源 OpenCV-MUSA 计算机视觉库、MooER 音频理解大模型、vLLM-MUSA 大语言模型高速推理框架。
▼ MUTLASS开源地址:
在数值计算和深度学习领域,矩阵乘法(GEMM)及其变体,例如FlashAttention和Convolution,是构建复杂上层应用的基石。
为了追求更高的算子融合效率或者更具创新性的算法,开发者往往需要超越标准化计算接口的限制,如标准BLAS接口和芯片厂商的计算库接口,实现高性能的定制计算。儿子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)就是为了满足这种需求而设计的。
MUTLASS作为摩尔线程针对自研MUSA架构优化的高性能计算库,是在开源模板库CUTLASS的基础上进行MUSA适配、定制开发和优化。
对于矩阵乘法和相关变体,MUTLASS提供了一系列高性能C++模板组件,并采用类似于muDNN库的分层分解和数据处理策略,以确保充分的性能。
在这个开源版本中,Moore Thread适配了CuTe后端库,添加了第三代MUSA架构的MMA计算原语,支持TF32/FP16/BF16/INT8等多种数据精度。在此基础上初步实现了对矩阵乘法、默认实例库、性能测试器及相关工具包的支持。
通过MUTLASS,开发者不仅可以灵活复用不同层级的模板组件,还可以根据需要修改各种模板组件的实现细节,以更低的开发成本实现定制的高性能算子,从而使摩尔线程能够充分发挥性能在功能GPU上尝试更多的算法创新。
Moore Threads将继续优化MUTLASS的性能并推出新功能。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/271432.html