“DeepSeek乃至绕过了CUDA”,论文细节再引热议,
硬件媒体Tom‘s Hardware带来开年最新热议:DeepSeek乃至绕过了CUDA,应用更底层的编程言语做优化。这一次是 DeepSeek-V3论文中的更多细节,被人发掘出来。 来自Mirae Asset Securities Research(韩国将来资产证券)的剖析称, V3的硬件效力之以是能比Meta等超过10倍,能够总结为“他们重新开端重修了所有”。 在应用英伟达的H800 GPU练习DeepSeek-V3时,他们针对本人的需要把132个流式多处置器(SMs)中的 20个修正成担任效劳器间的通讯,而不是盘算义务。 变相绕过了硬件对通讯速率的限度。△ DeepSeek-V3 Technical Report这种操纵是用英伟达的PTX(Parallel Thread Execution)言语实现的,而不是CUDA。 开展全文
PTX在濒临汇编言语的层级运转,容许停止细粒度的优化,如存放器调配跟Thread/Warp级其余调剂。
这种编程十分庞杂且难以保护,以是行业通用的做法是应用CUDA如许的高等编程言语。
换句话说,他们把优化做到了极致。
有网友表现,假如有一群人嫌CUDA太慢而应用PTX,那必定是前量化买卖员。
一位亚马逊工程师提出魂魄诘责:CUDA能否仍是护城河?这种顶尖试验室能够无效应用任何GPU。
乃至有网友开端畅想,假如“新源神”DeepSeek开源了一个CUDA替换计划……
那么事件能否真会如斯?
DeepSeek真的绕过了CUDA?
起首要明白的是, PTX依然是英伟达GPU架构中的技巧,它是CUDA编程模子中的旁边表现,用于衔接CUDA高等言语代码跟GPU底层硬件指令。
PTX相似汇编言语,代码大略长如许:
△来自tinkerd.net
在现实编译流程中,CUDA代码起首被编译为PTX代码,PTX代码再被编译为目的GPU架构的呆板码(SASS,Streaming ASSembler)。
CUDA起到了供给高等编程接口跟东西链的感化,能够简化开辟者的任务。而PTX作为旁边层,充任高等言语跟底层硬件之间的桥梁。
别的,这种两步编译流程也使得CUDA顺序存在跨架构的兼容性跟可移植性。
反过去说,像DeepSeek这种直接编写PTX代码的做法,起首不只十分庞杂,也很难移植到差别型号的GPU。
有从业者表现,针对H100优化的代码迁徙到其余型号上可能后果打扣头,也可能基本不任务了。
以是说,DeepSeek做了PTX级其余优化不料味着完整离开了CUDA生态,但确切代表他们有优化其余GPU的才能。
现实上,咱们也能看到DeekSeek曾经与AMD、华为等团队严密配合,第一时光供给了对其余硬件生态的支撑。
One More Thing
另有人提出,如斯一来, 让AI善于编写汇编言语是AI自我改良的一个偏向。
咱们不晓得DeepSeek外部能否应用AI帮助编写了PTX代码——
然而确切刚见证DeepSeek-R1编写的代码明显晋升年夜模子推理框架的运转速率。
Llama.cpp名目中的一个新PR恳求,应用SIMD指令(容许一条指令同时处置多个数据)明显晋升WebAssembly在特定点积函数上的运转速率,提交者表现:
这个PR中的99%的代码都是由DeekSeek-R1编写的。我独一做的就是开辟测试跟编写提醒(经由一些实验跟过错)。
是的,这个PR旨在证实年夜模子当初可能编写精良的底层代码,乃至可能优化本人的代码。
这个PR中的99%的代码都是由DeekSeek-R1编写的。我独一做的就是开辟测试跟编写提醒(经由一些实验跟过错)。
是的,这个PR旨在证实年夜模子当初可能编写精良的底层代码,乃至可能优化本人的代码。
llama.cpp名目的开创人检讨了这段代码后表现“比预期的更爆炸”。
参考链接:
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[3]https://tinkerd.net/blog/machine-learning/cuda-basics/
[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
2025,信念偕行,美妙可期前往搜狐,检查更多
上一篇:被“减弱”的英伟达,此次又想蹭呆板人的热度
下一篇:没有了
下一篇:没有了