趣看热点

出品 | 虎嗅科技组

作者 | 丸都山

编辑 | 苗正卿

头图 | 摩尔线程

在资本市场的热度趋于平静之时，摩尔线程又在产业端将人们的视线拉回。

12月20日，摩尔线程举行了首届“MUSA开发者大会”，发布全新一代全功能GPU架构“花港”，以及基于“花港”架构打造的AI训推一体芯片“华山”，以及专用于高性能图形渲染的芯片“庐山”。

此外，摩尔线程创始人张建中在现场还公布了“夸娥万卡智算集群”，以及未来即将发布的MTT C256超节点结构规划。

如果说上述内容还属于“可预测的”技术迭代内，那么诸如中间语言MTX，以及光刻计算库、量子计算融合框架等技术，就真的完全在人意料之外了。

当然，也可以说这些技术并非摩尔线程首次提出的，毕竟后面这几项或多或少都在GTC大会上出现过，但从国产GPU公司体量来看，敢于全方位地去搭建生态，这本身就是件值得肯定的事。

对于正处于“情感估值”与“理性审视”交织中的摩尔线程来说，这场开发者大会也是在向外界传达一个明确的信号，即无论行业作何评价，摩尔线程都会坚持以MUSA为核心，去打造类似英伟达CUDA的生态护城河。

先来说说本次开发者大会上，让笔者最为震惊的一项技术：中间语言MTX。

它属于MUSA 5.0软件栈的一部分，对于MUSA统一架构，关注过摩尔线程的人或多或少都了解过，这是摩尔线程自主研发的覆盖从芯片架构、指令集编程模型到软件运行库及驱动程序框架的全栈技术体系。

在此前几次版本迭代中，MUSA主要集中在编程生态的扩充，比容兼容更多编程语言，或是丰富算子库上，而今天提到的“中间语言MTX”属首次出现。

简单解释下中间语言MTX是什么。它的核心作用是兼容不同代际GPU的指令架构，让开发者无需为每一代新GPU重新适配代码，大幅降低开发者适配成本，同时为上层软件生态提供稳定的底层支撑。

用个更直观的例子来说明下：在英伟达CUDA生态下，其核心底层组件之一，就是这个中间语言技术，英伟达将其命名为“PTX”，依托PTX中间语言，开发者在2018年为Turing架构芯片编译的代码，至今仍可通过驱动即时编译在2025年的Blackwell芯片上运行。

那么做这个“中间语言”难吗？应该说非常难，而且耗时耗力，同样以英伟达的PTX为例，在2007年随CUDA 1.0发布后，大部分版本都需要新增对应硬件的专属指令（如Tensor Core相关指令），同时保持对旧版本的兼容，最终形成“高级语言→PTX→硬件二进制指令”的成熟编译链路。

对于开发者来说，因为中间语言PTX的存在，更加没理由拒绝CUDA，因为在英伟达之前，就没有芯片厂商考虑过“向前兼容”的问题。

不过，对于国内GPU厂商而言，开发一个中间语言的难度肯定要远大于英伟达，因此在今天之前，笔者从不认为真会有国内厂商去做这件事。

而按照张建中在今天开发者大会上的表态，在明年上半年，摩尔线程自研的MTX就将向开发者开放。

相较于英伟达的18年磨一剑，可以预见的是，摩尔线程的MTX在适用性上一定不如前者，不过敢于迈出这一步，还是足够令人刮目相看。

毕竟，在GPU行业中，有着英伟达这座大山，“不做生态”已经成为了某种程度上的政治正确。

从2022年基于MUSA统一架构的“苏堤”问世算起，摩尔线程先后推出了四代GPU架构，而本次发布的“花港”架构基本上可以看作是升级幅度最大的一代。

首先是计算性能的显著提升。基于新一代指令集，“花港”架构较前代“平湖”的算力密度提升50%，同时能效大幅优化，且支持从FP4到FP64的全精度端到端的全精度端到端计算。

其次是异步编程与超大规模互联的支持。新一代异步编程模型，能够更好地优化任务调度与并行极致，而通过自研的MTLink高速互联技术，将支持十万卡以上规模的智算集群扩展。

值得一提的是，在开发者大会现场，张建中还明确表示，新一代“花港”架构将内置AI生成式渲染结构，并且完整支持DirectX 12 Ultimate。

据此基本可以判断出，摩尔线程的消费级显卡接下来一定会得到迭代，而且极大概率是一款基于“花港”架构打造的产品。在“消费级显卡”这个小众且最艰难的赛道上，摩尔线程依然没有放弃。

基于“花港”架构，摩尔线程在今天发布了两款芯片：“庐山”与“华山”。

先说说定位于“AI训推一体”芯片的“庐山”。除了上文提到的新一代异步编程与全精度张量计算单元外，这枚芯片还有个特殊之处是能够适配多种“类以太协议”，同时又适配多种Scale-Up switch。

这意味着“庐山”芯片不仅能在MTlink下使用，也可以兼容国内其他厂商的协议，而据张建中在现场的介绍，“庐山”最高支持在1024片超节点的扩展。

应该说，尽管摩尔线程执着于打造自研生态，但并没有把路走窄。

另外一枚用于高性能图形渲染的芯片“庐山”，其图像性能对比MMT S80，在集成了AI生成式渲染后，AI计算性能提升64倍，UtiTE统一渲染架构让几何处理性能提升16倍，全新的硬件光追引擎，让光线追踪性能提升50倍。

除了芯片外，本次MUSA开发者大会还正式发布了“夸娥万卡智算集群”。该集群具备全精度、全功能通用计算能力，在万卡规模下实现高效稳定的AI训练与推理。

今年，国内GPU行业的叙事逐渐从“能用”转移到“好用”，尤其在H200解禁对华出口后，国内从业者更加感受到了紧迫。

在芯片“好用”这个问题上，摩尔线程答案仍聚焦于“生态”二字，不仅要实现生态自立，也在主动探索生态边界。

比如在今天的开发者大会上，摩尔线程推出的“长江”SoC。这款芯片主要面向端侧，通过CPU+GPU+NPU的组合，最高可提供50 TOPS的异构AI算力。

据张建中介绍，摩尔线程将推出基于“长江”SoC、AI芯片模组MTT E300和夸娥智算集群打造的MT Robot具身智能解决方案。

通过这个组合能够看出，该款方案最大的特点是能够协调“端—边—云”算力。据悉，MT Robot已经用在了农业场景中。

另外值得一提的是，摩尔线程还基于这款SoC打造了一款名为“MTT AIBOOK”的AI算力本，未来还将推出一款迷你型计算设备MTT AI Cube。

而在具身智能方面，除了MT Robot外，摩尔线程还发布了MT Lambda具身智能仿真训练平台。

该平台在定位上有些类似于英伟达的Issac Sim，但又不完全一样。MT Lambda核心聚焦于“全栈融合”，旨在将物理引擎、渲染引擎与AI引擎深度整合，打破了传统具身智能研发中“开发、仿真、训练”各环节割裂的痛点，以提升研发效率。

此外，MT Lambda也可以直接部署到MT Robot上，以形成软硬件的高效协同。

从摩尔线程在具身智能赛道上的生态拓展可以看出，在目前任何一个与“计算”有关的行业中，摩尔线程都试图通过“全栈软硬件架构+全场景产品”的布局占据身位，每一步都在拓展生态的边界，同时每一步都面临着实打实的挑战。

某种意义上，这也是在走一遍英伟达来时的路，面对后者近20年沉淀出的生态霸权，摩尔线程能否搭建起另一条国产生态护城河，答案终究需要时间来检验。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4819257.html?f=wyxwapp