“云端之外,端侧AI也是国产芯片下一个主战场。”
作者丨赵之齐
编辑丨包永刚
2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。
作为AI产学研投界的标杆盛会,GAIR自2016年创办以来,始终坚守“传承+创新”内核,始终致力于连接技术前沿与产业实践。
在人工智能逐步成为国家竞争核心变量的当下,算力正以前所未有的速度重塑技术路径与产业结构。13日举办的“AI算力新十年”专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到产业化落地展开系统讨论,试图为未来十年的中国AI产业,厘清关键变量与发展方向。
IO资本创始合伙人赵占祥,专注于硬科技与半导体领域的早期及成长期投资,在大会上,他发表了题为《大模型时代,国产AI芯片破局的几种新技术路线》 的演讲。
长期关注半导体与硬科技的他,近几年密切观察着国产AI芯片在现实约束下的演进路径。“今年国产GPU的市场占有率已接近一半,在先进制程受限的背景下,单纯沿着GPU的既有路线继续追赶英伟达,必须依靠新的技术路径”,他开宗明义。
从这一判断出发,赵占祥系统梳理了过去一年国内涌现出的多条探索路线,覆盖云端、边缘、端侧、IoT末端以及先进封装等多个层面。
云端方向,赵占祥重点提到TPU、Hybrid Bonding(混合键合)、大容量SRAM推理芯片以及大规模分布式互联等方案。这些路线的共同点,是绕开对HBM和先进工艺的高度依赖,通过系统设计获得整体性能提升。“英伟达自己流片的成本只占四分之一,一半的成本在HBM上”,他说,“如果带宽能上去,本质上就是用存力去抵消算力不足。”
在他看来,许多值得关注的变化,也正发生在端侧和末端。除了在演讲中梳理多条新兴端侧芯片路线外,赵占祥在演讲结束后也与雷峰网展开对谈,进一步解释了他为何在格外看重端侧市场,以及这些方向如何在现实约束下跑通商业闭环。(作者长期关注半导体、算力上下游等方向,欢迎添加微信Ericazhao23交流。)
01
对话:
端侧芯片市场大,工程师红利是商业闭环关键
雷峰网:您在演讲中分享了很多端侧AI的案例,为什么今年着重看端侧芯片市场?
赵占祥:接下来AI技术要真正落地,就要靠端侧。这个市场未来规模肯定也是海量,全球PC与平板的出货量大约四亿台、手机十几亿台,这些都是端侧芯片巨大需求的基础。
更重要的是,AI硬件未来的机会是中国的。
软件生态的客户群体集中在国内,这给中国芯片厂商创造了天然优势。就像蓝牙耳机领域——中国占据全球90%的市场份额,核心芯片也几乎都是中国厂商供应。这种生态逻辑和Arm很相似,可以说,如果没有中国厂商,就没有今天Arm的产业影响力。
雷峰网:但有一种说法认为,部分端侧芯片的出货量有限、成本利润又比较低,难以覆盖生产成本。那么,端侧芯片想实现商业闭环,重点会在什么地方?
赵占祥:可以看看瑞芯微的例子,他们现在利润表现很好,核心就是过去十年里,把服务做到了极致。比如,他们能做到无原厂接入的情况下直接替换,所以大家在深圳想做AI硬件,会优先想到瑞芯微。他们各种解决方案都有,这种重服务的模式就是中国工程师红利的体现。
美国厂商就做不到这一点,他们更擅长把开发平台打磨到极致,但服务能力弱;中国厂商或许在性能上稍逊色,但能通过深度适配满足不同产品需求,这种落地能力在AI商业化阶段,反而成了核心优势,可以通过“堆人”做好服务。
雷峰网:目前来说,端侧芯片的发展主要面临什么瓶颈?
赵占祥:首先是功耗,当前的AI手机芯片是跑不了大模型的,算力不够、存储容量不够,大模型对内存的消耗还是太大了,这也是为什么现在光羽芯辰和微纳核芯在推PIM+3D DRAM的方案,就是通过存内计算,让内存直接承担计算任务、再用3D堆叠封装提升存储容量,也能降低整体功耗。
不过,除了技术还有生态的能力。对新入局的NPU创业公司来说,手机生态的壁垒太高了:华为有自己的芯片生态,小米、OPPO高端机主要用高通芯片,vivo X系列高端机用联发科,这些新NPU公司怎么和主芯片厂商建立合作,是很重要的。
雷峰网:预计明年在端侧这边,会有哪些应用能率先规模化落地吗?
赵占祥:现在末端AI的形态,主要是指环、眼镜等可穿戴设备,还有各类传感器和智能家居、AI硬件。不过,接下来爆发力最强的多模态AI硬件应该就是AI眼镜了,明年大概率会迎来销量暴涨,保守估计能卖几千万部,核心驱动力就是成本下降。
目前已有中国厂商在日本卖的一款智能眼镜,售价才几十块钱,虽然只是加上个耳机功能,但销量非常大。未来AI眼镜的发展路径,应该是“先降成本、再升体验”,未来AI眼镜完全有可能降到普通眼镜的价格,就像现在买个太阳镜只要一百块钱那样。
雷峰网:那在末端AI这边,要实现商业闭环会有哪些比较可行的路径?
赵占祥:末端最后应该也会跑出极致低功耗的AI芯片公司,或者Arm这样的IP供应商。比如智源匠芯,就是卖IP授权的,做SoC、电源管理、传感器、MCU等芯片的厂商可以买他们的IP集成进去,这种IP的伸缩性特别好,能支撑起完整的生态供应链。
而且,IP模式之所以能形成闭环,关键在于“量大”。低功耗AI IP成本很低,芯片公司如果自己研发,不仅要花钱招人,效果还未必好,直接采购反而更划算。就像蓝牙耳机芯片一年出货三十亿颗,哪怕每颗收一毛钱授权费,也能有三个亿的收入了。
02
演讲全文
精彩演讲回顾
以下是赵占祥演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:
前面几位嘉宾主要分享了国产GPU的发展路径。正如刚才罗总提到的,今年国产GPU的市场占有率已接近一半。在先进制程受限的背景下,单纯沿着GPU的既有路线继续追赶英伟达,很难在性能上超越英伟达,所以必须依靠新的技术路径。
自去年起,国内又涌现了一二十家创新的芯片公司,尝试通过新的架构设计和工艺路线,探索大模型时代AI芯片的发展方向。今天,我将围绕这些技术路线展开分享。
首先我们回顾下美国对华出口管制的演进。
2022至2024年间,相关限制“变本加厉”,核心集中在先进计算与先进制程领域,包括光刻机、HBM、先进封装,还有混合键合和人员流动限制等关键环节。在这样的环境下,中国要依赖EUV工艺向2nm等先进制程演进,难度还是很大的。
我也列一下国内在不同方向上的创新技术路线,包括云端的AI芯片、边缘的AI芯片、端侧的AI芯片、IoT末端的AI芯片和先进封装。中国真正强的是,我们可以把应用做好,有工程师红利,我们在各个领域都有不同的定制化方案和创新的解决路线。
三大路线破制程限制:TPU、Hybrid Bonding、SRAM
首先,是数据中心的AI芯片。
第一条路线,是超维无际的TPU路线。Google最新发布的Gemini3模型,就是基于TPU进行训练。目前,包括OpenAI、Anthropic、xAI在内的多家AI巨头,已向Google下单采购TPU。现在Google正式对外销售TPU芯片了,已经是全球出货量仅次于英伟达的AI芯片产品。
TPU的核心特征在于以“超节点性能”为目标,而非单卡性能。其优势包括更大规模的超节点架构、更高性价比,以及相对友好的软件生态。在不依赖CUDA的前提下,通过系统级设计获得整体性能提升,同时减少对先进制程、HBM以及NV/IBSwitch的依赖,从而显著降低成本——甚至达到远超英伟达十倍以上的超高性价比。
之后,是算苗科技的3D-TokenPU,这条路线的核心在于Hybrid Bonding(混合键合)技术。进入大模型时代后,对数据存储的要求是更高的。其实英伟达自己流片的成本只占1/4,1/2的成本则花在HBM上。如果我们用Hybrid Bonding的方式,相比HBM的带宽是更高的,现在HBM的带宽就是几个TB/s,等于是用存力抵消了算力不足的问题。
第三,是芯感未来的大容量SRAM推理芯片。这个方案以SRAM为核心,相比于GPGPU,具备三项显著优势:
低时延,可实现毫秒级响应;低成本,单位性能成本相比传统GPGPU提高了10倍;低功耗,无需HBM,也不依赖先进制程,从而显著降低制造难度和能耗。
接下来,是比特智路的百万卡分布式互联方案。在超大规模集群中,网络成为关键瓶颈,传统无损网络在万卡规模下可用性下降明显。比特智路就采用基于以太网、允许丢包的互联方案,使系统具备更强的可扩展性,有望支持百万卡级别的分布式集群。
再来看看边缘芯片的发展。
首先,英伟达近期发布Spark AI Station,搭载GB10芯片。未来家庭场景中,NAS有可能从单纯的存储中心演进为计算中心,就都要配一个边缘AI芯片。摄像头等设备也会从被动监控变成主动认知,自然就需要大模型的计算能力,这一变化为国产方案提供了落地优势。
Nanotrix公司提出的LPU架构,采用四层3D DRAM堆叠,内存带宽可达24TB/s。GB10处理的Token在每秒个位数,但这个相比传统方案,其Token处理能力可以达到每秒上百个。
在机器人等领域,当前芯片仍是被英伟达Orin垄断的,国产芯片目前最大的问题就是算力没有那么高,用得最多的瑞芯微只有几个TOPS,智能体的GPU算力可以做得更高。
存算一体+三维架构,跑通端侧AI芯片的“不可能三角”
而端侧AI芯片,主要是手机以及各种智能终端。
首先是烨知芯路线,他们走的是苹果NPU路线。苹果的NPU从2017年开始做,做到现在8年的时间了,迭代了很多代,已经是很成功的NPU了。
它的优势在于强通用性,能支持所有AI网络;其次是高能效比,苹果的NPU已经不需要比参数了,它的能耗比相比于传统的CPU和GPU,有10倍以上的优势,相比其他的AI芯片,面积只有1/2至1/4。
此外,还有高效编译器以及良好的可扩展性。所以苹果主要是易用性做得非常好,而不是一味地追求算力的性能和参数。
之后,是光羽芯辰的端侧AI芯片,这也是燧原参与的一家公司。他们用的是3D DRAM+PIM。3D DRAM是堆叠封装的技术,而 PIM 在此基础上引入计算逻辑,使端侧设备在更小面积、更低成本和功耗条件下实现更高算力。
微纳核芯则采用了全球首创的三维存算一体3D-CIM架构,兼顾了高性能、低功耗与低成本这个“不可能三角”。在存储芯片中引入计算逻辑,相当于将NPU核心直接集成至DRAM中。这样做的优势在于,手机系统无需额外增加AI芯片,内存芯片本身即可承担计算功能,与CPU协同工作,整体芯片数量不增加,功耗较低,Token生成能力可达每秒百级。
还有一种方案,是韧槃科技的 LPDDR-PIM方案,能够实现高带宽、低功耗。在DDR的DRAM里面,每个Bank旁边放了一个计算板块,合起来之后,带宽可以做到1-2TB/s,在手机上可以跑30-70亿大模型。
接下来,是末端AI芯片。
末端AI芯片的核心诉求是超低功耗处理能力。
例如,智源匠芯做的是模型、架构与电路多层协同的“深度自适应”处理器核,推出两类产品:一类为mW(毫瓦)级功耗,可实现10–300 GOPS;另一类为μW(微瓦)级功耗,面向对能耗要求极致的应用场景,算力可达几个GOPS。例如在关键传感器等场景中,可直接集成该类AI核。
此外,3D DRAM的发展高度依赖先进封装。最近我看到一家深圳的公司,他们就是做先进封装设备核心零部件的,现在整个产能都拉满了。芯片公司让先进封装厂扩产,先进封装厂让设备公司扩产,设备公司让上游模块厂商、组件厂商扩产,整个产业链从前几年的无人问津、到现在产能拉爆,明年的产能还会更加紧张。甚至,有些设备厂商的订单都已经排到了明年下半年,整个行情都被AI算力带起来了。
在先进封装需求推动下,又有一些新的机会涌现。
比如,电容、电感等器件,传统电容电感主要部署在PCB板上,占用面积较大;而在先进封装中,这些器件需要内嵌至芯片内部,只能采用硅电容方案,应用于高性能SoC、AI算力芯片及高速光模块里面,所以硅电容未来的需求是很巨大的。
以苹果电脑为例,单个主芯片需要的硅电容数量可达8–11颗,用量非常大。相关核心技术,包括半导体MOS工艺、3D纳米结构、深沟式技术及高容积率PICS技术。以前放在PCB板上,器件坏了之后把它拿下来换一下就可以了,但现在不可能把芯片拆了拿出来换,可靠性要求更高,门槛相比之前高了很多。
齐力半导体是一家从事先进封装产线的公司,产品涵盖2.5D与3D封装,其中3D封装就是在2.5D的基础上引入了TSV技术。
在混合键合技术下,可以实现数十至数百TB级别的带宽能力,这也对检测设备提出了更高要求。过去检测设备主要服务于先进制程,但当前先进封装需求快速增长,对微凸块3D检测和全流程缺陷检测提出了更高要求——这么多颗芯片里,一旦焊接或键合存在缺陷,可能导致多颗芯片同时报废,成本极高。随着堆叠层数增加,良率下降问题更加突出,就只能依赖高精度检测设备保证质量,以此控制成本。
而在3D封装中,层间焊接之间如果有空隙,就难以通过电子束、光学或X射线检测发现,往往需要依赖超声波检测技术。这项技术在晶圆键合领域的应用范围正在扩大,国内的思波微也已经推出用于先进封装的超声检测设备。
再介绍一下光电合封,它被认为是下一代AI算力的基石。与传统光模块方案相比,其在功耗、集成度、可靠性和部署效率方面具备明显优势。具体来看,功耗可以降低约3.5倍,集成度提升约63倍,可靠性提升约10倍,部署时间缩短约1.3倍。国内已经有企业在该方向开展产品布局。
最后简单介绍IO资本。IO资本是一家长期专注于硬科技领域的财务顾问机构。这一页展示的是近年来已完成上市的项目,后续也有多家企业正在推进上市进程。目前,我们所服务和陪伴的硬科技独角兽企业数量已超过30家,这里列举了一些代表性案例。



































