2024年初,硅谷发生了一件震撼业界的事儿。
一家名叫Groq的初创公司,突然公布了一个大模型测试网址。
当你输入一段提示词,按下回车,屏幕上的字不是像ChatGPT那样一个词一个词地往外蹦,而是像瀑布一样唰地一下,就把屏幕给铺满了。
经过测试,Groq的输出速度,达到了每秒500个Token!
这是啥概念?哪怕OpenAI采购了最强的NVL72超级算力集群,输出速度不过每秒50个Token左右啊!
英伟达
英伟达团队努力了一年多,始终无法达到Groq的恐怖推理速度,最后无奈做了个决定:
打不过,就加入吧。
2025年年底,英伟达花了200亿美元,收购了Groq的技术,几个月后,英伟达正式推出Groq 3 LPU,推理速度比H100芯片快6倍。
而此时,中国连能完全匹敌H100的芯片,都还没造出来,哪怕最好的昇腾950也不行。
那怎么办?中国只能在AI竞赛中被美国越落越远了吗?
并不会。
2026年5月7日,一家名叫寒序科技的中国芯片创业公司,宣布了一个重要消息:他们成功流片了亚洲首个8纳米eMRAM AI芯片。
中国的Groq,终于诞生了。
那么,这个eMRAM AI芯片到底是啥?它的诞生,又会怎样改变中美竞争格局呢?
一
要了解这个问题,我们需要简单科普一个概念:内存墙。
我们现在用的所有电脑、手机、AI服务器,其实底层架构,和冯·诺依曼时代没有太大的不同。
这个架构有一个特点:计算和存储是分开的。
打个比方:
你的计算芯片,就像是一个做菜的大厨。
你的内存,就像一个大型食材仓库。
大厨要炒个土豆丝,必须等卡车(数据总线)去郊区仓库把土豆拉过来。
过去几十年,摩尔定律让大厨的手速翻了成千上万倍,但是卡车的搬运速度,提升却非常缓慢。
于是,一个魔幻的现实诞生了,这个拥有闪电手速的大厨,90%的时间都是端着刀在厨房里发呆,等那个货车司机把土豆送过来。
这种数据速度赶不上计算速度的bug,就叫内存墙。
如果在以前,我们可能还可以无视内存墙,继续凑合用。
但到了AI时代,就不能无视了。
在之前的公众号文章中,我们介绍过AI芯片的两个用途:
一是训练,二是推理,二者对芯片的要求,是不一样的。
训练AI,是让它学知识,可以慢慢熬,速度没关系。
但推理,是让它回答问题,必须具备超高的推理速度,毕竟没有人能忍受大模型一个字一个字地往外蹦。
那么这个时候,内存墙的问题就很大了,AI芯片的计算能力可能很强,但大部分的时间,都浪费在了把参数从内存搬运到计算芯片的路上。
要想解决这个bug,只有一个办法:把仓库直接建在厨房旁边,不用卡车就能让大厨拿到土豆。
这在技术上,叫做存算一体,CIM。
说起来,存算一体的思路并不复杂,那么为什么不早一点这么干呢?
因为找不到合适的“放土豆的冰箱”(载体)。
在过去,载体只有两种选择,一种叫静态随机存储器SRAM,这玩意儿速度快,可以放在大厨手边,随做随用。
但问题在于,SRAM不仅体积庞大(要占芯片体积的60%),而且一断电,里面的数据就全丢了。
另一种叫闪存Flash,这玩意儿断电不丢数据,容量大,但是速度慢。
而我们需要的是一个超级冰箱,它要像SRAM一样极速,能紧紧嵌入计算核心,同时,它还得像Flash一样,断电后数据永远不丢。
那这玩意儿存在吗?
存在,这就是嵌入式磁阻随机存取存储器eMRAM,写入速度比NAND闪存快约1000倍,读写速度接近SRAM,而且体积很小,位单元仅需1个晶体管(SRAM需6个)。
eMRAM的技术核心,是那个字母“M”,磁。
传统的存储器,是用“装没装电子”来代表0和1。
而eMRAM则巧妙利用了量子力学的属性,电子自旋,利用磁场的方向来代表0和1。
磁铁大家都玩过吧?你把磁铁掰到一个方向,只要你不动它,它一万年都指着那个方向,根本不需要通电来维持!
当你需要改变它的时候,只需用极其微弱的电流,瞬间就能改变它的方向,速度快到飞起。
极速、省电、断电不丢数据、体积小还能和计算电路完美融合。
当这四种属性集于一身,eMRAM就成了AI芯片存算一体的终极圣杯。
既然eMRAM这么牛X,那全世界的芯片巨头肯定都在研究吧?
没错。台积电、三星很早就在布局了,但在很长一段时间里,他们只能把eMRAM做到22纳米或者28纳米。
为啥?因为eMRAM太难了!
你想想,把几亿个极小的磁铁紧紧挨在一起,会发生什么?它们会互相干扰!当你试图把A磁铁翻转成1时,旁边的B磁铁可能就会跟着变成0。
而且,制程越小,电子会因为量子效应穿过绝缘层,导致严重的漏电和数据错误。
更难的是制造,eMRAM里面最核心的“磁隧道结”,需要堆叠几十层不同材质的薄膜,每一层只有几个原子的厚度。稍有不慎,整个结构就崩溃了。
所以哪怕强如三星和台积电,也搞不定。
但是呢?微电子专家搞不定的事情,不代表物理学家搞不定。
寒序科技很多人都没听过,但北京大学很多人就耳熟能详了。
而寒序科技,恰恰就脱胎于北京大学物理学院应用磁学中心,最擅长的就是自旋电子学与磁逻辑计算,没有人比他们更适合搞eMRAM了!
寒序科技的联合创始人兼首席科学家,是北大物理学院80后博导罗昭初,而另一位联合创始人兼CEO,名叫朱欣岳。
创业时,他还是北大物理学院的一名在校硕士生。
寒序科技团队只有20多个人,但个个都是研发骨干,从最底层的凝聚态物理、磁性材料配方,到微纳器件工艺,再到最上层的芯片架构设计和AI大模型算法,他们都能干!
他们凑在一起,就是想干一件伟大的事,用物理学,去改变传统的芯片设计架构,造出世界上算力最强、功耗最低的磁性存算一体芯片!
上来就冲击最高峰,风险太大了。无数人劝他们,先用28纳米的老工艺流个片试试水吧,路子走通了再提高制程。
但他们算了一笔账:要做能跑动AI大模型推理的端侧芯片,28纳米的晶体管密度根本不够。
要干,就干票大的!
于是,他们用600多个日日夜夜,用自研的新型材料配方,稳住了电子自旋,还重构了读写电路的架构,在极小的空间里平衡了磁场的排斥力。
在公司创立2年之后,他们终于完成了8纳米eMRAM设计。
但问题在于,这个设计是不是对的?没人知道,只能花几千万搞流片测试,点亮了是神话,没点亮就是笑话。
这就是一场豪赌。
而事实证明,他们赌赢了,寒序科技成功在三星8nm工艺窗口完成了亚洲首个eMRAM AI芯片流片。
中国人,终于驯服了原子的脾气,彻底打通了AI算力的任督二脉。
二
毫无疑问,eMRAM的诞生,将彻底改变整个AI应用行业的格局。
请大家注意一个问题,当今AI产业,其实面临着一个困局:
绝大部分AI,都运行在云端。
你问豆包一个问题,语音被转换成数据,跨越上千公里的基站、光纤,钻进某个偏远山区的数据中心,那里成千上万张GPU正在疯狂运转,推理出结果,再传回你的手机。
这种云端模式,你如果拿它写诗、画画、做PPT,可能问题不大。
但如果你想把AI应用在产业上,那就不行了。
比如延迟,如果你开着一辆自动驾驶汽车,前面突然窜出一条狗。汽车把画面传给云端,云端AI思考了一下说“刹车”,再传回来。
对不起,狗已经飞升了。
再比如断网,一旦走进没有信号的地方,那AI就彻底瘫痪。
还有隐私,谁没有一点小癖好呢?谁没问过AI一些隐私问题呢?那么这些信息和内容,你愿意都让它上传到云端吗?
怎么办?
没别的办法,只能搞“去云端化”,把大模型部署到本地,也就是业内常说的端侧AI。
具体到产业上,我们必须把大模型塞进汽车、塞进手机、塞进AR眼镜、塞进机器人的脑子里!
但如果还用过去那种传统GPU作为大模型的载体,这要花多少钱?
也许端侧AI能硬塞进20万的汽车,但它能塞进几千块钱的手机和AR眼镜吗?
想想中国男人为了5090显卡在老婆面前多卑微,就知道这条路根本走不通,谁能接受一个塞了5090芯片,卖价好几万的手机?
这个时候,eMRAM,就是从天而降的解药。
仍然以自动驾驶为例,有了eMRAM芯片,端侧大模型就可以内嵌入芯片,大模型参数根本不需要通过数据总线这辆“食材卡车”就能完成运算,它的推理速度,可以被压缩到传统架构的十分之一,甚至百分之一!
当摄像头捕捉到危险画面的那一瞬间,磁极翻转启动,几百亿次计算瞬间完成,瞬间做出刹车决策。
有了eMRAM,我们相信,L4级别的自动驾驶很快就会到来。
而且,谁说eMRAM只能用在汽车上呢?可穿戴设备也可以用啊。
我们都记得,当年扎克伯格和库克为了搞元宇宙,砸了上千亿美元,但为什么现在的AR眼镜还是没法像智能手机一样普及?
因为很多人戴AR眼镜时间久了,会晕。
为什么会晕?业内有个词叫动显延迟MTP。
AR原理是,当你的头转动时,眼镜的摄像头捕捉新画面,然后AI芯片开始推理,生成虚拟物体贴合在现实物体上。
如果这个推理过程超过了20毫秒,你的眼睛和前庭神经就会产生割裂感,大脑就会报警:你中毒了,快吐!
要解决这20毫秒的延迟,传统芯片架构已经力不从心,而eMRAM恰恰可以完美解决这个问题。
超快的推理能力,使得AR眼镜可以在极短的时间内完成虚拟渲染,你看向外文路牌,眼前实时翻译。你搭乐高,它能直接指示你下一步怎么搭。你看老婆,它也能从看到的微表情中判断老婆会不会打你。
物理世界与数字世界的重合,从此严丝合缝,再无卡顿。
还有机器人,eMRAM也补上了机器人行业最后一块短板。
现在的人形机器人,很多动作都迟缓而僵硬。为什么?
因为机器人要保持平衡、要抓取物体,全身几十个关节的传感器每秒钟要向大脑发送海量的数据。
大脑需要用大模型进行实时的多模态推理,然后再下发指令给电机。
内存墙卡死了大脑的运转速度,机器人的动作自然就慢。
但如果你把eMRAM芯片装进机器人的脑子里呢?
存算一体带来的超快推理速度,可以让视觉大模型以每秒几百帧甚至上千帧的速度进行推理,别说让它炒菜做饭了,你让它学李小龙用双节棍打乒乓球,它也能办得到!
当每一个机器人的大脑都装入一个李小龙式的灵魂,人形机器人才能真正代替人类,走进高速运转的工厂流水线,走进充满突发状况的抢险救灾现场。
除此之外,eMRAM芯片还有一个意外收获:太空AI。
5月6日,马斯克宣布,自己的xAI将不再作为独立公司存在,将并入SpaceX AI。
这被人认为是马斯克太空AI计划的开端。
马斯克一直认为,地球上电力、土地和冷却都会越来越受限,成本越来越高,而太空里有持续且不要钱的太阳能,也有近乎无限的地盘,未来只要把AI服务器发射进入太空,就能用低廉的token成本压死所有竞争对手。
面对马斯克的压力,谷歌公布“捕日者计划”,计划2030年建成吉瓦级太空数据中心。同时,亚马逊的ProjectKuiper也瞄准了太空算力。
在这个新赛道上,中国也并不落后,2025年11月,北京市科委、中关村科学城管理委员会发布规划,提出在700~800公里晨昏轨道上,建设超千兆瓦功率的集中式大型数据中心系统。
可是,太空AI看起来很美,却有一个致命的bug:传统芯片不适应太空啊!
太空中,布满了高能宇宙射线,质子、重离子、电子打在靠电子来确定0和1的传统芯片上,要么会发生数据随机翻转,0变1、1变0,要么出现单粒子锁存,电路短路、芯片卡死,要么总电离剂量长期累积,慢慢漏电、性能下降。
所以,芯片在太空的错误率,是地面的10–100倍。
太空AI的确成本低,但如果它算出的都是一堆错误数据,有啥用?
这个时候你会发现,eMRAM,简直就是为太空AI量身定制的。
别忘了,它是靠“磁场方向”来记忆的。宇宙射线可以打飞电荷,但根本无法改变一块磁铁的磁极!
这意味着,eMRAM天然具备极强的抗辐射能力,未来千亿美元的太空AI市场大门,正在为eMRAM打开。
所以,这块小小的eMRAM,绝不仅是一块芯片那么简单,它将彻底改变整个芯片产业的格局,eMRAM+,将带来无限可能。
三
如果我们以更大的视角来看eMRAM就会发现,它的诞生,不亚于又一次“DeepSeek时刻”。
说实话,到了2026年,AI圈子里的玩家其实只剩了两个,中国和美国。
总是点错科技树的日本早就下桌了,而欧洲人正努力自救,但也注定徒劳。
他们的未来只有一个,看中美谁赢了,就跟谁走,接受AI附庸的命运。
但是,美国人的作风,是绝不能容忍中国赢得这场决定人类文明下一个百年走向的AI竞赛的。
所以,美国从上到下,从硬件到软件,从教育到产业,对中国筑起了一道高耸的算力墙。
你想要最聪明的AI?那你就必须训练超大参数的模型。
想要训练大模型?那你就必须拥有万卡规模的算力集群。
想要算力集群?那你就必须有顶级的GPU,要么买,要么造。
你想买?对不起,不卖给你。
你想造?对不起,台积电的3纳米产线不给你用,ASML也不给你EUV光刻机。
这就是美国人的算盘,只要限制EUV光刻机,禁售高端GPU,就能把中国的算力锁死在7纳米以上,永远无法突破高端GPU,任凭你有再多天才的算法工程师,也只能被美国人越落越远。
但美国人似乎忘了一件事:中国人,是这个星球上最擅长弯道超车的民族。
十年前,西方国家在汽车三大件技术上严防死守,想永远让中国变成他们倾销的市场,但中国一招电动汽车的神来之笔,全世界汽车产业格局就彻底改写。
一年前,OpenAI砸下上百亿美元,用十几万张顶级显卡去训练大模型,借此维持对中国的模型优势。但DeepSeek用MoE架构,只用了美国十分之一的算力成本,就训练出了性能超越GPT-4的顶级大模型。
今年,美国限制出口高端芯片,中国搞出了昇腾384超节点,把384颗昇腾NPU和192颗鲲鹏CPU连接在一起,使其训练性能达到了英伟达NVL72的1.7倍,网络带宽提升了107%!
而这次eMRAM的诞生,只不过又是一次弯道超车罢了,我们用8纳米工艺制程,一把抹平了美国的绝对算力封堵!
如今的AI产业格局啊,其实已经变了。
大模型的竞赛虽然激烈,但AI竞争的真正下半场,根本不在训练端,而在推理端,也就是
让AI走进物理世界,去驱动汽车、去控制机器人、去让AR眼镜看懂世界。
但问题在于,云端AI有延迟,本地AI算力又不够,毕竟你不可能给机器狗塞进几百块显卡吧?
这个时候,端侧推理能力就至关重要了,谁能快速、低成本、低能耗地完成推理,谁就能赢。
而这恰恰是eMRAM的长处。
在传统架构下,你要达到100TOPS的推理速度,并且把功耗压在极低的水平,你可能必须要用3纳米甚至2纳米的工艺。
但现在,寒序科技在不需要EUV光刻机突破的情况下,利用8纳米制程,就硬生生地跑出了远超美国3纳米芯片的推理速度和能效比!
时代变了!
所以,不要低估eMRAM带来的产业变革,它可能直接帮中国在AI竞争中开辟一条与美国截然不同的新路。
说实话,如今的AI产业,已经越来越巨头化了。
巨头们用几万亿美元堆出来数据中心,然后把世界上所有的知识、所有的数据都放进去训练,试图制造一个全知全能的神,然后你向神上贡(付费),神给你指点迷津(token)。
只要你想用AI,就只能找他们,忍受他们的盘剥,如果他们看你不顺眼,直接就可以封掉你的账号,你毫无办法。
这就是继军事霸权、石油霸权之后的AI霸权。
5月1日,美国国防部发表声明,称已与SpaceX、OpenAI、谷歌、英伟达、Reflection AI、微软以及亚马逊7家AI公司达成合作协议,企图组建美国的AI国家队。
显然,制造并维持AI霸权,已经成了美国在下一个百年继续称霸世界的战略布局。
但是,eMRAM的量产,却通过把AI下放给万事万物,打破了美国的AI霸权。
我们有着全世界最庞大的新能源汽车产业、最完备的无人机制造体系、最多的工业机器人,这些终端,唯独缺一颗可以本地运行的大脑。
而eMRAM,就是那颗低功耗、高效率、低成本的大脑,它赋予了每一台汽车、每一个机械臂、每一副AR眼镜独立思考、极速反应的能力。
未来的机器人,每一个大脑都装有一个运行大模型的eMRAM,不依赖云算力,光靠眼睛看、耳朵听,就能干活。
未来的龙虾,每一个都拥有本地化部署的大模型,不用再担心一觉醒来龙虾把你的token用破产了。
甚至每一个AI伴侣,都能零延迟、私人化地回答你的所有问题,而不用担心巨头们知道你的小情趣。
这就是AI平权,更是AI的去中心化。
AI的最终用户,其实还是一个个具体的人。
只有让每个人都平等地用上AI,才是AI应该走向的未来。
根据约翰·霍兰德提出的涌现理论,当系统复杂到一定程度,微观上的低效,通过宏观的涌现,就能变成极其恐怖的高效。
当这几百亿个拥有端侧AI的中国设备,在物理世界中协同运转、相互交互时,它们所涌现出的集体智能和生产力大爆炸,将彻底淹没云端巨头的光环。
这,就是AI时代的“农村包围城市”。
当中国人用庞大的终端将美国造出来的AI之神拉下神坛,攻守之势,就彻底不同了。
四
在人类战争史上,有一个笑话,叫“马奇诺防线”。
二战前,法国人为了防备德国,花了整整12年,在法德边境修筑了一道坚不可摧的防线。
法国人觉得,只要守住这道防线,法国就能固若金汤。
结果呢?1940年,德军理都没理这道防线,直接开着坦克穿过阿登森林,就绕到防线背后,把法国给灭了。
历史最大的教训就是,人类从不吸取教训。
美国人以为他们的算力防线可以阻挡中国人的脚步,但中国人只开了一个脑洞,就轻松绕过去了。
历史啊,就是一幕舞台剧,而我们都身处其中。
我常常在想,面对美国一个接一个的制裁法案,面对硅谷每天发布的花里胡哨的大模型,那些中国的AI工程师,心里到底在想什么?
他们肯定有过迷茫,有过疲惫。
别看我这篇文章写得轻松,但在搞eMRAM芯片的时候,绝对没那么容易,每一个磁信号的干扰,每一个磁隧道结的良率提升,都需要用无数个不眠之夜和头发去填补。
但我更相信,在他们的潜意识里,有一种刻在中华民族基因里的韧性。
那是一种什么样的韧性呢?
是天破了,我们不祈祷,我们炼几块石头硬把它补上。
是洪水来了,我们不造船逃跑,我们疏通河道把它治服。
是太阳太毒,我们不跪拜,我们用弓箭把它射下来。
是哪怕是大山挡了路,我们也不搬家,我们子子孙孙挖土也要把它平掉。
是没有计算机,我们用几百把算盘,也要把原子弹的爆轰参数算出来。
说白了,中国人骨子里,都有一种对所谓绝对力量的天然不服从。我们不需要祈求施舍,更不需要等待救世主。因为我们自己,就是自己的救世主。
如今,先辈的接力棒传到了我们这一代人手中。
这些从北大实验室走出来的90后,虽然硬件条件比当年好了很多,但那股子不服输的劲,和几千年前在黄河边治水、几十年前在戈壁滩上搞核爆的前辈们,同频共振,一脉相承。
历史一再证明,这世界上从来没有什么注定的绝境。
eMRAM,就是这群现代愚公,在AI壁垒上,砸出的第一道缺口。
流片成功的那一刻,仪器屏幕上跳动的电信号,就是这片传承五千年土地上,最浪漫的回声。