PANews2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出DeepGEMM,一个支持FP8GEMM的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。
DeepGEMM关键特性:
•超高性能:在HopperGPU上实现1350+FP8TFLOPS
•极简依赖:无繁重依赖,代码简洁如教程
•JIT即时编译:无需预编译,运行时自动优化
•核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核
•支持稠密布局和两种MoE布局