中国显卡自研之路：追赶二十年差距，还要走多久？-农村365今日头条主页-365体育外围-农村365今日头条主页-英国beat365官方APP

写在前面2026 年 4 月，中国。

你想订阅一个 Coding Plan？那得费老鼻子劲了。

这不是个例。2026 年，中国的 AI 算力供应紧张到了”抢号”的地步。

背后的原因很简单：高端 GPU 被禁售，国产替代跟不上。

这篇文章，聊聊中国显卡自研的进度、挑战，以及算力危机暴露出的深层问题。

一、现状：2026 年的国产 GPU1.1 华为昇腾：国产 AI 算力的主力华为昇腾是目前国产 AI 算力最有希望的产品线：

产品

制程

状态

性能对标

昇腾 910B

7nm (中芯N+2)

已量产

约 A100 水平（2020年）

昇腾 910C

7nm

小规模量产

约 A100/A800 水平

昇腾 910D

7nm+

2025H2量产，2026部署

目标对标 H100

时间差距评估：

如果昇腾 910D 成功对标 H100（2022 年产品），那么：

12345678性能对标：昇腾 910D ≈ H100 (2022) ↙ ↘时间差距： 2026年达到 → 2022年水平 = 落后 4 年但同时 NVIDIA 已演进到： B200/B300 (2024-2025) + Rubin (2026) ↘ 仍领先 2-3 代

1.2 其他国产 GPU 厂商

厂商

产品

制程

状态

定位

海光

DCU 系列

7nm

已量产

CUDA 兼容，持续迭代

壁仞科技

BR100 改版

7nm

小规模

转型推理、边缘计算

摩尔线程

MTT S80/S4000

7nm

已量产

全功能 GPU，消费级+专业级

天数智芯

天垓 100

7nm

已量产

AI 推理

共同特点：全部停留在 7nm 制程。

二、硬件瓶颈：制程封锁是核心困境2.1 光刻机：无法获得的”关键设备”高端 GPU 需要先进制程。而先进制程依赖光刻机。

制程

生产方

中国可获得性

3nm

TSMC、三星

❌ 完全封锁

4nm/4NP

TSMC

❌ 禁止出口中国

5nm

TSMC、三星

❌ 禁止出口中国

7nm

TSMC、三星、中芯

⚠️ 中芯可做，但产能有限

14nm+

中芯、华虹等

✅ 成熟量产

2026 年实际差距：

123456789NVIDIA 制程演进: 2022: H100 @ 4nm 2024: B200 @ 4NP (改进4nm) 2026: Rubin @ 3nm 中国可获得的最佳制程: 2026: 7nm (中芯 N+2，DUV 多重曝光) 制程差距: 3nm vs 7nm = 2-3 代差距

2.2 EUV vs DUV：光刻机的代际差距EUV（极紫外光刻机）是制造 7nm 以下芯片的关键设备，由荷兰 ASML 生产，被美国禁止出口中国。

中芯国际只能用 DUV（深紫外光刻机）做 7nm，需要”多重曝光”：

指标

EUV 单次曝光

DUV 多重曝光

步骤数

1次曝光

3-4次曝光

良率

80-90%

30-50%

成本

基准

2-3 倍

产能

基准

限制较大

这意味着：

同样生产一块 7nm GPU，中国成本更高、良率更低

实际可用芯片数量有限，无法大规模量产

7nm 是天花板，无法突破到 5nm/3nm

2.3 HBM 内存：另一个短板高端 AI 训练需要 HBM（高带宽内存）：

GPU

内存规格

带宽

H100

80GB HBM3

3.35 TB/s

B200

192GB HBM3e

8 TB/s

昇腾 910D

估计 HBM2e

估计 1-2 TB/s

HBM 由韩国 SK 海力士、三星主导，技术门槛极高。国产 HBM 还在研发阶段，差距明显。

三、软件瓶颈：CUDA 的二十年差距3.1 CANN vs CUDA：软件栈差距华为昇腾使用 CANN（Compute Architecture for Neural Networks）作为软件栈：

12345678910CUDA 生态层级 CANN 生态层级┌─────────────────┐ ┌─────────────────┐│ PyTorch/TF │ │ MindSpore │ ← 华自研框架├─────────────────┤ ├─────────────────┤│ cuDNN/cuBLAS │ │ ACL/OP API │ ← 适配层├─────────────────┤ ├─────────────────┤│ CUDA Runtime │ │ CANN Runtime │├─────────────────┤ ├─────────────────┤│ NVIDIA GPU │ │ 昇腾 NPU │└─────────────────┘ └─────────────────┘

差距对比：

维度

CUDA (2026)

CANN (2026)

开发周期

20 年

约 6-7 年

开发者数量

500 万+

估计 15-20 万

算子库数量

3000+

估计 500-600 个

文档完善度

极其详尽

相对不足

bug 修复速度

全球团队支持

依赖华为内部团队

3.2 深度学习框架的适配困境主流框架对 CUDA 是”原生级”支持，对昇腾是”适配级”：

1234PyTorch 官方支持优先级：├── CUDA: 原生支持，性能最优，bug 优先修复├── ROCm (AMD): 次级支持，问题较多└── CANN (昇腾): 通过 torch_npu 扩展适配，非官方原生

这意味着：

PyTorch 新特性永远先在 CUDA 上实现

昇腾适配永远慢一步

很多算子没有优化实现

开源社区贡献几乎为零

3.3 算子移植的巨大工作量一个深度学习模型可能有数百个算子：

对比

数量

PyTorch CUDA 算子

超过 2000 个

昇腾已适配算子

估计 500-800 个

差距

超过 1200 个算子需要移植

每个算子都需要：

针对昇腾架构重新实现

性能优化调优

bug 测试修复

这是一项巨大且持续的工作。

四、人才瓶颈：GPU 专家在哪里？4.1 GPU 架构设计人才稀缺

需要的人才类型

全球分布

GPU 微架构设计

主要在 NVIDIA、AMD，中国极少

并行计算编译器

CUDA 团队深耕 20 年，中国刚起步

高性能算子优化

需要硬件+算法双重知识，人才稀缺

现实：全球 GPU 核心人才集中在 NVIDIA 和 AMD。中国需要”从零培养”或”海外引进”，但顶尖人才很难回国。

4.2 开发者转向成本即使硬件做出来了，谁来用？

中国 AI 开发者 90%+ 使用 CUDA

学习 CANN 需要重新理解：编程模型、内存管理、性能优化策略

企业没有动力让员工学习新平台（除非强制）

五、追赶悖论：永远差几步5.1 时间差距的变化123456789101112时间差距变化： 2024: 昇腾 910B vs H100 = 落后约 6-8 年 2026: 昇腾 910D vs B300 = 落后约 3-4 年如果保持追赶速度： 2028: 可能落后 2-3 年 2030: 可能落后 1-2 年但前提是：├── 制程不被进一步封锁├── 软件生态持续投入└── NVIDIA 不加速迭代

5.2 NVIDIA 也在前进更残酷的是：你追上今天的 NVIDIA，但 NVIDIA 又进化了。

123456789101112132026 年时间线：NVIDIA:├── H100 (2022) ─────→ 成熟稳定，大规模部署├── B200/B300 (2024-2025) ─→ 大规模出货└── Rubin R100 (2026H2) ─→ 下一代发布华为昇腾:├── 910B (已量产) ─────→ 对标 A100 (2020)├── 910C (小规模) ─────→ 对标 A100/A800└── 910D (2026部署) ───→ 目标对标 H100 (2022)差距：4 年（但 NVIDIA 还有 B300、Rubin）

六、挑战排序：从难到易12345678910111213141516171819202122232425262728 ┌─────────────────────────────────┐ │ 中国 GPU 自研挑战金字塔 │ └─────────────────────────────────┘Level 5: 生态网络效应（差距扩大） ├── CUDA 20 年，开发者 500 万+ ├── 学术界默认 CUDA，论文难复现 └── 全球开源社区全部绑定 CUDALevel 4: 软件栈深度（差距缩小但仍明显） ├── 算子库 3000+ vs 600 ├── PyTorch 适配约 70% 主流算子 └── 调试工具、profiler 差距大Level 3: 人才知识积累（持续投入） ├── 20 年培养的 GPU 专家 ├── 编译器团队规模差距 └── 性能优化经验积累Level 2: 制造工艺差距（核心瓶颈） ├── 3nm vs 7nm，差 2-3 代 ├── EUV 光刻机完全封锁 └── HBM 内存技术落后Level 1: 硬件架构设计（已有突破） ├── 昇腾 910D 架构设计成熟 ├── 部分指标接近 H100 └── 资金投入可解决

排序结论：

硬件设计（Level 1）：已有突破，可追赶

制造工艺（Level 2）：核心瓶颈，短期难以突破

人才积累（Level 3）：需要持续投入 5-10 年

软件栈（Level 4）：差距明显，但正在缩小

生态效应（Level 5）：差距扩大，最难跨越

七、算力危机：暴露了哪些问题？7.1 表层问题：供应不足2026 年，Coding Plan 抢不到，直接原因是：

问题

说明

NVIDIA GPU 禁售

H100、B200 等高端产品无法进口

国产 GPU 产能不足

7nm 良率低，产能有限

需求爆发式增长

大模型训练需求远超供给

7.2 深层问题：技术依赖更深层的问题是技术依赖：

依赖类型

说明

硬件依赖

高端 GPU、光刻机、HBM 都依赖进口

软件依赖

CUDA 生态绑定，开发者只会 CUDA

人才依赖

GPU 核心人才在海外

生态依赖

学术论文、开源项目全部绑定 CUDA

一句话：AI 技术栈的每一层，都依赖海外技术。

7.3 更深层问题：战略误判回顾过去十年，有哪些战略误判？

误判

后果

低估 AI 算力重要性

2022 年大模型爆发时，措手不及

低估制裁风险

没有”囤货”预案，禁售后严重短缺

高估国产替代速度

认为几年就能追上，实际差距仍大

忽视软件生态

只关注硬件，软件生态投入不足

八、未来展望：什么时候可以缓解？8.1 短期（2026-2027）

方面

预期

昇腾 910D 部署

2026 年大规模部署，缓解部分需求

国家强制替代

政企、国企强制使用国产算力

算力共享平台

建立公共算力平台，提高利用率

缓解程度：部分缓解，但高端需求仍紧张。

8.2 中期（2028-2030）

方面

预期

昇腾下一代

目标对标 B300，差距缩小到 2-3 年

软件生态成熟

CANN 算子适配 90%+，MindSpore 完善

7nm 产能提升

中芯产能提升，良率改善

缓解程度：基本需求可满足，高端训练仍有限制。

8.3 长期（2030+）

方面

预期

制程突破？

取决于光刻机技术突破，不确定性高

生态建立

国内开发者形成规模，可能突破 50 万

差异化路线

不追求通用 GPU，聚焦特定领域优化

缓解程度：取决于技术突破和持续投入。

8.4 关键变量什么时候可以缓解，取决于三个变量：

变量

影响

美国制裁力度

制程封锁是否会进一步加强

软件生态投入

CANN、MindSpore 能否持续迭代

国内需求增速

大模型需求是否会放缓

九、可能的破局路径9.1 短期：强制替代12345国家强制推动：├── 政务系统 → 强制使用国产算力├── 国企央企 → 强制使用国产算力├── 高校科研 → 优先使用国产算力└── 互联网公司 → 部分强制替代

优点：快速提升国产 GPU 需求，加速迭代缺点：效率损失，短期内性能不如 CUDA

9.2 中期：场景突破不追求”通用 GPU”，聚焦特定场景：

场景

策略

推理场景

不需要顶级算力，国产 GPU 可胜任

边缘计算

功耗要求高，国产 GPU 有优势

特定行业

政务、金融、医疗，可以定制优化

9.3 长期：生态建设12345开源社区建设：├── 投资开源项目 → 让开发者愿意贡献├── 建立开发者社区 → 提供培训、文档、支持├── 学术合作 → 让高校用国产 GPU 做研究└── 企业扶持 → 帮助企业迁移到国产平台

这是最难但最根本的路径。

十、总结：路还要走多久？回到开头的问题：Coding Plan 抢不到，什么时候可以缓解？

答案取决于视角：

视角

时间估计

基本需求缓解

2026-2027（昇腾 910D 部署）

高端需求缓解

2028-2030（取决于技术突破）

追上 NVIDIA

可能需要 10-15 年

建立完整生态

可能需要 20 年

更关键的问题：

算力危机暴露的不仅是”供应不足”，而是整个 AI 技术栈的依赖：

硬件依赖：光刻机、GPU、HBM

软件依赖：CUDA 生态

人才依赖：GPU 专家稀缺

生态依赖：学术界、开源社区

这不是”买买买”就能解决的问题，而是需要 10-20 年持续投入的系统性工程。

写在最后中国显卡自研之路，注定是一条艰难的路。

硬件层面：制程封锁是核心瓶颈，短期难以突破。

软件层面：CUDA 的二十年差距，需要持续追赶。

生态层面：开发者、学术界、开源社区的绑定，是最难跨越的障碍。

但好消息是：

昇腾 910D 如果成功量产，将大幅缩短差距

CANN/MindSpore 正在快速迭代

国产替代需求正在加速推动技术进步

中国 GPU 自研，不是”能不能”的问题，而是”要多久”的问题。

短期（2-3 年）：基本需求缓解。中期（5-8 年）：高端需求部分满足。长期（10-15 年）：可能追上 NVIDIA。

但前提是：制裁不加剧、投入不中断、生态持续建设。

参考资料

China aims for 10% China-made GPU market share this year

China’s chipmakers learning to live with American sanctions

China’s lithography challenges amid US sanctions

China’s Hardware Manufacturing Ecosystem

NVIDIA Blackwell B200/B300 specifications

中国显卡自研之路：追赶二十年差距，还要走多久？

相关推荐

怪物猎人x大骨位置一览，助你轻松找到

《命令与征服：红色警戒》1-3部共30个版本全系列介绍与游戏下载分享，你玩过几部？

“外星人”出席开幕式东道主5

合作伙伴