中国eMRAM芯片流片成功，美国的算力墙碎了

2024年初，硅谷发生了一件震撼业界的事儿。

一家名叫Groq的初创公司，突然公布了一个大模型测试网址。

当你输入一段提示词，按下回车，屏幕上的字不是像ChatGPT那样一个词一个词地往外蹦，而是像瀑布一样唰地一下，就把屏幕给铺满了。

经过测试，Groq的输出速度，达到了每秒500个Token！

这是啥概念？哪怕OpenAI采购了最强的NVL72超级算力集群，输出速度不过每秒50个Token左右啊！

英伟达

英伟达团队努力了一年多，始终无法达到Groq的恐怖推理速度，最后无奈做了个决定：

打不过，就加入吧。

2025年年底，英伟达花了200亿美元，收购了Groq的技术，几个月后，英伟达正式推出Groq 3 LPU，推理速度比H100芯片快6倍。

而此时，中国连能完全匹敌H100的芯片，都还没造出来，哪怕最好的昇腾950也不行。

那怎么办？中国只能在AI竞赛中被美国越落越远了吗？

并不会。

2026年5月7日，一家名叫寒序科技的中国芯片创业公司，宣布了一个重要消息：他们成功流片了亚洲首个8纳米eMRAM AI芯片。

中国的Groq，终于诞生了。

那么，这个eMRAM AI芯片到底是啥？它的诞生，又会怎样改变中美竞争格局呢？

一

要了解这个问题，我们需要简单科普一个概念：内存墙。

我们现在用的所有电脑、手机、AI服务器，其实底层架构，和冯·诺依曼时代没有太大的不同。

这个架构有一个特点：计算和存储是分开的。

打个比方：

你的计算芯片，就像是一个做菜的大厨。

你的内存，就像一个大型食材仓库。

大厨要炒个土豆丝，必须等卡车（数据总线）去郊区仓库把土豆拉过来。

过去几十年，摩尔定律让大厨的手速翻了成千上万倍，但是卡车的搬运速度，提升却非常缓慢。

于是，一个魔幻的现实诞生了，这个拥有闪电手速的大厨，90%的时间都是端着刀在厨房里发呆，等那个货车司机把土豆送过来。

这种数据速度赶不上计算速度的bug，就叫内存墙。

如果在以前，我们可能还可以无视内存墙，继续凑合用。

但到了AI时代，就不能无视了。

在之前的公众号文章中，我们介绍过AI芯片的两个用途：

一是训练，二是推理，二者对芯片的要求，是不一样的。

训练AI，是让它学知识，可以慢慢熬，速度没关系。

但推理，是让它回答问题，必须具备超高的推理速度，毕竟没有人能忍受大模型一个字一个字地往外蹦。

那么这个时候，内存墙的问题就很大了，AI芯片的计算能力可能很强，但大部分的时间，都浪费在了把参数从内存搬运到计算芯片的路上。

要想解决这个bug，只有一个办法：把仓库直接建在厨房旁边，不用卡车就能让大厨拿到土豆。

这在技术上，叫做存算一体，CIM。

说起来，存算一体的思路并不复杂，那么为什么不早一点这么干呢？

因为找不到合适的“放土豆的冰箱”（载体）。

在过去，载体只有两种选择，一种叫静态随机存储器SRAM，这玩意儿速度快，可以放在大厨手边，随做随用。

但问题在于，SRAM不仅体积庞大（要占芯片体积的60%），而且一断电，里面的数据就全丢了。

另一种叫闪存Flash，这玩意儿断电不丢数据，容量大，但是速度慢。

而我们需要的是一个超级冰箱，它要像SRAM一样极速，能紧紧嵌入计算核心，同时，它还得像Flash一样，断电后数据永远不丢。

那这玩意儿存在吗？

存在，这就是嵌入式磁阻随机存取存储器eMRAM，写入速度比NAND闪存快约1000倍，读写速度接近SRAM，而且体积很小，位单元仅需1个晶体管（SRAM需6个）。

eMRAM的技术核心，是那个字母“M”，磁。

传统的存储器，是用“装没装电子”来代表0和1。

而eMRAM则巧妙利用了量子力学的属性，电子自旋，利用磁场的方向来代表0和1。

磁铁大家都玩过吧？你把磁铁掰到一个方向，只要你不动它，它一万年都指着那个方向，根本不需要通电来维持！

当你需要改变它的时候，只需用极其微弱的电流，瞬间就能改变它的方向，速度快到飞起。

极速、省电、断电不丢数据、体积小还能和计算电路完美融合。

当这四种属性集于一身，eMRAM就成了AI芯片存算一体的终极圣杯。

既然eMRAM这么牛X，那全世界的芯片巨头肯定都在研究吧？

没错。台积电、三星很早就在布局了，但在很长一段时间里，他们只能把eMRAM做到22纳米或者28纳米。

为啥？因为eMRAM太难了！

你想想，把几亿个极小的磁铁紧紧挨在一起，会发生什么？它们会互相干扰！当你试图把A磁铁翻转成1时，旁边的B磁铁可能就会跟着变成0。

而且，制程越小，电子会因为量子效应穿过绝缘层，导致严重的漏电和数据错误。

更难的是制造，eMRAM里面最核心的“磁隧道结”，需要堆叠几十层不同材质的薄膜，每一层只有几个原子的厚度。稍有不慎，整个结构就崩溃了。

所以哪怕强如三星和台积电，也搞不定。

但是呢？微电子专家搞不定的事情，不代表物理学家搞不定。

寒序科技很多人都没听过，但北京大学很多人就耳熟能详了。

而寒序科技，恰恰就脱胎于北京大学物理学院应用磁学中心，最擅长的就是自旋电子学与磁逻辑计算，没有人比他们更适合搞eMRAM了！

寒序科技的联合创始人兼首席科学家，是北大物理学院80后博导罗昭初，而另一位联合创始人兼CEO，名叫朱欣岳。

创业时，他还是北大物理学院的一名在校硕士生。

寒序科技团队只有20多个人，但个个都是研发骨干，从最底层的凝聚态物理、磁性材料配方，到微纳器件工艺，再到最上层的芯片架构设计和AI大模型算法，他们都能干！

他们凑在一起，就是想干一件伟大的事，用物理学，去改变传统的芯片设计架构，造出世界上算力最强、功耗最低的磁性存算一体芯片！

上来就冲击最高峰，风险太大了。无数人劝他们，先用28纳米的老工艺流个片试试水吧，路子走通了再提高制程。

但他们算了一笔账：要做能跑动AI大模型推理的端侧芯片，28纳米的晶体管密度根本不够。

要干，就干票大的！

于是，他们用600多个日日夜夜，用自研的新型材料配方，稳住了电子自旋，还重构了读写电路的架构，在极小的空间里平衡了磁场的排斥力。

在公司创立2年之后，他们终于完成了8纳米eMRAM设计。

但问题在于，这个设计是不是对的？没人知道，只能花几千万搞流片测试，点亮了是神话，没点亮就是笑话。

这就是一场豪赌。

而事实证明，他们赌赢了，寒序科技成功在三星8nm工艺窗口完成了亚洲首个eMRAM AI芯片流片。

中国人，终于驯服了原子的脾气，彻底打通了AI算力的任督二脉。

二

毫无疑问，eMRAM的诞生，将彻底改变整个AI应用行业的格局。

请大家注意一个问题，当今AI产业，其实面临着一个困局：

绝大部分AI，都运行在云端。

你问豆包一个问题，语音被转换成数据，跨越上千公里的基站、光纤，钻进某个偏远山区的数据中心，那里成千上万张GPU正在疯狂运转，推理出结果，再传回你的手机。

这种云端模式，你如果拿它写诗、画画、做PPT，可能问题不大。

但如果你想把AI应用在产业上，那就不行了。

比如延迟，如果你开着一辆自动驾驶汽车，前面突然窜出一条狗。汽车把画面传给云端，云端AI思考了一下说“刹车”，再传回来。

对不起，狗已经飞升了。

再比如断网，一旦走进没有信号的地方，那AI就彻底瘫痪。

还有隐私，谁没有一点小癖好呢？谁没问过AI一些隐私问题呢？那么这些信息和内容，你愿意都让它上传到云端吗？

怎么办？

没别的办法，只能搞“去云端化”，把大模型部署到本地，也就是业内常说的端侧AI。

具体到产业上，我们必须把大模型塞进汽车、塞进手机、塞进AR眼镜、塞进机器人的脑子里！

但如果还用过去那种传统GPU作为大模型的载体，这要花多少钱？

也许端侧AI能硬塞进20万的汽车，但它能塞进几千块钱的手机和AR眼镜吗？

想想中国男人为了5090显卡在老婆面前多卑微，就知道这条路根本走不通，谁能接受一个塞了5090芯片，卖价好几万的手机？

这个时候，eMRAM，就是从天而降的解药。

仍然以自动驾驶为例，有了eMRAM芯片，端侧大模型就可以内嵌入芯片，大模型参数根本不需要通过数据总线这辆“食材卡车”就能完成运算，它的推理速度，可以被压缩到传统架构的十分之一，甚至百分之一！

当摄像头捕捉到危险画面的那一瞬间，磁极翻转启动，几百亿次计算瞬间完成，瞬间做出刹车决策。

有了eMRAM，我们相信，L4级别的自动驾驶很快就会到来。

而且，谁说eMRAM只能用在汽车上呢？可穿戴设备也可以用啊。

我们都记得，当年扎克伯格和库克为了搞元宇宙，砸了上千亿美元，但为什么现在的AR眼镜还是没法像智能手机一样普及？

因为很多人戴AR眼镜时间久了，会晕。

为什么会晕？业内有个词叫动显延迟MTP。

AR原理是，当你的头转动时，眼镜的摄像头捕捉新画面，然后AI芯片开始推理，生成虚拟物体贴合在现实物体上。

如果这个推理过程超过了20毫秒，你的眼睛和前庭神经就会产生割裂感，大脑就会报警：你中毒了，快吐！

要解决这20毫秒的延迟，传统芯片架构已经力不从心，而eMRAM恰恰可以完美解决这个问题。

超快的推理能力，使得AR眼镜可以在极短的时间内完成虚拟渲染，你看向外文路牌，眼前实时翻译。你搭乐高，它能直接指示你下一步怎么搭。你看老婆，它也能从看到的微表情中判断老婆会不会打你。

物理世界与数字世界的重合，从此严丝合缝，再无卡顿。

还有机器人，eMRAM也补上了机器人行业最后一块短板。

现在的人形机器人，很多动作都迟缓而僵硬。为什么？

因为机器人要保持平衡、要抓取物体，全身几十个关节的传感器每秒钟要向大脑发送海量的数据。

大脑需要用大模型进行实时的多模态推理，然后再下发指令给电机。

内存墙卡死了大脑的运转速度，机器人的动作自然就慢。

但如果你把eMRAM芯片装进机器人的脑子里呢？

存算一体带来的超快推理速度，可以让视觉大模型以每秒几百帧甚至上千帧的速度进行推理，别说让它炒菜做饭了，你让它学李小龙用双节棍打乒乓球，它也能办得到！

当每一个机器人的大脑都装入一个李小龙式的灵魂，人形机器人才能真正代替人类，走进高速运转的工厂流水线，走进充满突发状况的抢险救灾现场。

除此之外，eMRAM芯片还有一个意外收获：太空AI。

5月6日，马斯克宣布，自己的xAI将不再作为独立公司存在，将并入SpaceX AI。

这被人认为是马斯克太空AI计划的开端。

马斯克一直认为，地球上电力、土地和冷却都会越来越受限，成本越来越高，而太空里有持续且不要钱的太阳能，也有近乎无限的地盘，未来只要把AI服务器发射进入太空，就能用低廉的token成本压死所有竞争对手。

面对马斯克的压力，谷歌公布“捕日者计划”，计划2030年建成吉瓦级太空数据中心。同时，亚马逊的ProjectKuiper也瞄准了太空算力。

在这个新赛道上，中国也并不落后，2025年11月，北京市科委、中关村科学城管理委员会发布规划，提出在700～800公里晨昏轨道上，建设超千兆瓦功率的集中式大型数据中心系统。

可是，太空AI看起来很美，却有一个致命的bug：传统芯片不适应太空啊！

太空中，布满了高能宇宙射线，质子、重离子、电子打在靠电子来确定0和1的传统芯片上，要么会发生数据随机翻转，0变1、1变0，要么出现单粒子锁存，电路短路、芯片卡死，要么总电离剂量长期累积，慢慢漏电、性能下降。

所以，芯片在太空的错误率，是地面的10–100倍。

太空AI的确成本低，但如果它算出的都是一堆错误数据，有啥用？

这个时候你会发现，eMRAM，简直就是为太空AI量身定制的。

别忘了，它是靠“磁场方向”来记忆的。宇宙射线可以打飞电荷，但根本无法改变一块磁铁的磁极！

这意味着，eMRAM天然具备极强的抗辐射能力，未来千亿美元的太空AI市场大门，正在为eMRAM打开。

所以，这块小小的eMRAM，绝不仅是一块芯片那么简单，它将彻底改变整个芯片产业的格局，eMRAM+，将带来无限可能。

三

如果我们以更大的视角来看eMRAM就会发现，它的诞生，不亚于又一次“DeepSeek时刻”。

说实话，到了2026年，AI圈子里的玩家其实只剩了两个，中国和美国。

总是点错科技树的日本早就下桌了，而欧洲人正努力自救，但也注定徒劳。

他们的未来只有一个，看中美谁赢了，就跟谁走，接受AI附庸的命运。

但是，美国人的作风，是绝不能容忍中国赢得这场决定人类文明下一个百年走向的AI竞赛的。

所以，美国从上到下，从硬件到软件，从教育到产业，对中国筑起了一道高耸的算力墙。

你想要最聪明的AI？那你就必须训练超大参数的模型。

想要训练大模型？那你就必须拥有万卡规模的算力集群。

想要算力集群？那你就必须有顶级的GPU，要么买，要么造。

你想买？对不起，不卖给你。

你想造？对不起，台积电的3纳米产线不给你用，ASML也不给你EUV光刻机。

这就是美国人的算盘，只要限制EUV光刻机，禁售高端GPU，就能把中国的算力锁死在7纳米以上，永远无法突破高端GPU，任凭你有再多天才的算法工程师，也只能被美国人越落越远。

但美国人似乎忘了一件事：中国人，是这个星球上最擅长弯道超车的民族。

十年前，西方国家在汽车三大件技术上严防死守，想永远让中国变成他们倾销的市场，但中国一招电动汽车的神来之笔，全世界汽车产业格局就彻底改写。

一年前，OpenAI砸下上百亿美元，用十几万张顶级显卡去训练大模型，借此维持对中国的模型优势。但DeepSeek用MoE架构，只用了美国十分之一的算力成本，就训练出了性能超越GPT-4的顶级大模型。

今年，美国限制出口高端芯片，中国搞出了昇腾384超节点，把384颗昇腾NPU和192颗鲲鹏CPU连接在一起，使其训练性能达到了英伟达NVL72的1.7倍，网络带宽提升了107%！

而这次eMRAM的诞生，只不过又是一次弯道超车罢了，我们用8纳米工艺制程，一把抹平了美国的绝对算力封堵！

如今的AI产业格局啊，其实已经变了。

大模型的竞赛虽然激烈，但AI竞争的真正下半场，根本不在训练端，而在推理端，也就是

让AI走进物理世界，去驱动汽车、去控制机器人、去让AR眼镜看懂世界。

但问题在于，云端AI有延迟，本地AI算力又不够，毕竟你不可能给机器狗塞进几百块显卡吧？

这个时候，端侧推理能力就至关重要了，谁能快速、低成本、低能耗地完成推理，谁就能赢。

而这恰恰是eMRAM的长处。

在传统架构下，你要达到100TOPS的推理速度，并且把功耗压在极低的水平，你可能必须要用3纳米甚至2纳米的工艺。

但现在，寒序科技在不需要EUV光刻机突破的情况下，利用8纳米制程，就硬生生地跑出了远超美国3纳米芯片的推理速度和能效比！

时代变了！

所以，不要低估eMRAM带来的产业变革，它可能直接帮中国在AI竞争中开辟一条与美国截然不同的新路。

说实话，如今的AI产业，已经越来越巨头化了。

巨头们用几万亿美元堆出来数据中心，然后把世界上所有的知识、所有的数据都放进去训练，试图制造一个全知全能的神，然后你向神上贡（付费），神给你指点迷津（token）。

只要你想用AI，就只能找他们，忍受他们的盘剥，如果他们看你不顺眼，直接就可以封掉你的账号，你毫无办法。

这就是继军事霸权、石油霸权之后的AI霸权。

5月1日，美国国防部发表声明，称已与SpaceX、OpenAI、谷歌、英伟达、Reflection AI、微软以及亚马逊7家AI公司达成合作协议，企图组建美国的AI国家队。

显然，制造并维持AI霸权，已经成了美国在下一个百年继续称霸世界的战略布局。

但是，eMRAM的量产，却通过把AI下放给万事万物，打破了美国的AI霸权。

我们有着全世界最庞大的新能源汽车产业、最完备的无人机制造体系、最多的工业机器人，这些终端，唯独缺一颗可以本地运行的大脑。

而eMRAM，就是那颗低功耗、高效率、低成本的大脑，它赋予了每一台汽车、每一个机械臂、每一副AR眼镜独立思考、极速反应的能力。

未来的机器人，每一个大脑都装有一个运行大模型的eMRAM，不依赖云算力，光靠眼睛看、耳朵听，就能干活。

未来的龙虾，每一个都拥有本地化部署的大模型，不用再担心一觉醒来龙虾把你的token用破产了。

甚至每一个AI伴侣，都能零延迟、私人化地回答你的所有问题，而不用担心巨头们知道你的小情趣。

这就是AI平权，更是AI的去中心化。

AI的最终用户，其实还是一个个具体的人。

只有让每个人都平等地用上AI，才是AI应该走向的未来。

根据约翰·霍兰德提出的涌现理论，当系统复杂到一定程度，微观上的低效，通过宏观的涌现，就能变成极其恐怖的高效。

当这几百亿个拥有端侧AI的中国设备，在物理世界中协同运转、相互交互时，它们所涌现出的集体智能和生产力大爆炸，将彻底淹没云端巨头的光环。

这，就是AI时代的“农村包围城市”。

当中国人用庞大的终端将美国造出来的AI之神拉下神坛，攻守之势，就彻底不同了。

四

在人类战争史上，有一个笑话，叫“马奇诺防线”。

二战前，法国人为了防备德国，花了整整12年，在法德边境修筑了一道坚不可摧的防线。

法国人觉得，只要守住这道防线，法国就能固若金汤。

结果呢？1940年，德军理都没理这道防线，直接开着坦克穿过阿登森林，就绕到防线背后，把法国给灭了。

历史最大的教训就是，人类从不吸取教训。

美国人以为他们的算力防线可以阻挡中国人的脚步，但中国人只开了一个脑洞，就轻松绕过去了。

历史啊，就是一幕舞台剧，而我们都身处其中。

我常常在想，面对美国一个接一个的制裁法案，面对硅谷每天发布的花里胡哨的大模型，那些中国的AI工程师，心里到底在想什么？

他们肯定有过迷茫，有过疲惫。

别看我这篇文章写得轻松，但在搞eMRAM芯片的时候，绝对没那么容易，每一个磁信号的干扰，每一个磁隧道结的良率提升，都需要用无数个不眠之夜和头发去填补。

但我更相信，在他们的潜意识里，有一种刻在中华民族基因里的韧性。

那是一种什么样的韧性呢？

是天破了，我们不祈祷，我们炼几块石头硬把它补上。

是洪水来了，我们不造船逃跑，我们疏通河道把它治服。

是太阳太毒，我们不跪拜，我们用弓箭把它射下来。

是哪怕是大山挡了路，我们也不搬家，我们子子孙孙挖土也要把它平掉。

是没有计算机，我们用几百把算盘，也要把原子弹的爆轰参数算出来。

说白了，中国人骨子里，都有一种对所谓绝对力量的天然不服从。我们不需要祈求施舍，更不需要等待救世主。因为我们自己，就是自己的救世主。

如今，先辈的接力棒传到了我们这一代人手中。

这些从北大实验室走出来的90后，虽然硬件条件比当年好了很多，但那股子不服输的劲，和几千年前在黄河边治水、几十年前在戈壁滩上搞核爆的前辈们，同频共振，一脉相承。

历史一再证明，这世界上从来没有什么注定的绝境。

eMRAM，就是这群现代愚公，在AI壁垒上，砸出的第一道缺口。

流片成功的那一刻，仪器屏幕上跳动的电信号，就是这片传承五千年土地上，最浪漫的回声。