20年最大更新! 英伟达CUDA13.1发布, 表面降门槛, 实际挖深海沟
2024年英伟达发布CUDA13.1,黄仁勋说这是公司20年来最大的升级。
最吸引人的宣传点是“15行Python代码实现过去200行C++功能”,还有个叫TileIR的中间层能简化编程。
技术圈一下子震惊了,都说这是编程门槛的革命。
但仔细琢磨琢磨,这到底是真·技术突破,还是英伟达又一个商业套路?

编程门槛真的降了?
以前写GPU代码简直是劝退新手,开发者得啃透SIMT架构、线程块划分这些硬骨头,内存优化更是让人头大。
现在CUDA13.1搞了个TileIR虚拟指令集,据说不用手动管理线程和内存了,直接用Python调API就行。
某高校AI实验室的朋友试过,用新工具跑MoE模型训练,确实比以前快多了。
本来要攒一个团队搞几周的活儿,现在一个人捣鼓几天就能出结果,这种效率提升,哪个开发者看了不眼馋?

老用户又被“抛弃”了?
不过技术升级的背后,总藏着厂商的小心思,CUDA13.1的性能提升,基本都绑在Blackwell架构上。
GroupedGEMMAPI加速效果明显,可只有新出的RTXPRO6000这些型号能用,手里拿着L40S的用户,只能干瞪眼。
这操作是不是有点眼熟?手机厂商出新系统时,老机型往往不在支持列表里,英伟达这波操作,明摆着是用软件功能逼着大家换新卡。
有数据中心的朋友吐槽,为了用上GreenContext的资源隔离功能,只能提前采购BlackwellGPU,预算一下子超了不少,说到GreenContext技术,确实有点东西。

能把GPU的SM切分给不同任务,云服务商肯定喜欢,但这功能同样是Blackwell专属,等于给新硬件加了道护城河。
老卡用户想用?不好意思,掏钱换新的吧,JimKeller最近就炮轰英伟达,说他们亲手拆毁了自己的护城河。
以前靠CUDA代码壁垒锁住开发者,现在用TileIR搞抽象垄断,表面上降低门槛吸引更多人进来,实际上把迁移成本抬得更高。
AMD和Intel想抢市场?先花几年适配这个中间层再说,TileIR说是开源的,可核心优化代码照样藏着掖着。

PyTorch团队基于这个中间层开发新算子,结果模型训练越来越依赖英伟达硬件,这套路和安卓有点像,开源吸引开发者,核心服务却牢牢抓在自己手里。
有国产AI芯片厂商的工程师私下说,他们花了大半年时间做TileIR适配,还是赶不上英伟达的更新速度。
客户一看兼容性不行,订单自然就飞了,这种生态绑定,比单纯的技术领先更让人头疼。
本来想趁着编程门槛降低多招些开发者,某AI创业公司CTO后来发现自己踩坑里了,项目上线倒是快,但代码和TileIR深度绑定,现在投资方要求国产化适配,只能从头重构内核。

短期效率是上去了,长期来看全是坑,全球AI算力市场现在80%以上都用英伟达GPU,TileIR出来后这个比例怕是还要涨。
所有主流框架都跟着优化,中小芯片厂商更难出头。
这种一家独大的局面,对整个行业创新真的好吗?
看看历史就知道,IBMPC开放架构催生出多少创新,Wintel联盟又垄断了多少年,现在英伟达走的路,有点似曾相识。
有高校实验室开始同时维护CUDA和ROCm两套代码,虽然麻烦,但总比把鸡蛋放一个篮子里强。

说到底,CUDA13.1的技术突破是真的,编程便利也是实实在在的,但这些便利就像裹着糖衣的炮弹,吃下去容易,想吐出来就难了。
英伟达用中间层重构生态护城河,把开发者从代码依赖变成抽象层依赖,手段确实高明。
对开发者来说,用不用CUDA13.1是个两难选择,不用吧,看着别人效率起飞心里痒痒,用了吧,等于把技术主权交了出去。
有位CTO说得实在,“现在是快速上线和长期自主之间的博弈,选哪边都得赌一把。,产业层面倒是该想想办法了。

推动开源中立中间层,比如MLIR的跨硬件适配,或许能打破这种垄断。
毕竟技术的终极价值是赋能创新,而不是把所有人都锁在一棵树上。
黄仁勋说这是20年最大升级,可能没骗人,只不过这升级里,技术革命和商业算计掺在了一起。
对普通用户来说,享受便利的同时,多留个心眼总没错,毕竟免费的午餐,往往是最贵的。
