中国大模型不被定义 率道而行
不诱于誉,不恐于诽,率道而行,端然正己。带着这十六个字,DeepSeek新版本终于问世。距离上一次更新的V3.2版本已经过去近5个月。在这期间,安索皮克的克劳德神话模型在网络攻击上展现了前所未有的能力,有机构称其将网络攻击的时代从“手工化”带到了“工业化”。GPT-Image-2也让网友惊呼“有图有真相”的时代已经过去。
在这个国外主流大模型平均91.4天就迭代一个版本的时代,DeepSeek的长时间沉默让很多人认为它已经落后甚至掉队。沉默的DeepSeek让人很不习惯——2025年初的横空出世、用更少的算力实现更优的性能、打破美西方营造的“算力焦虑”,这些标签让它意义非凡。因此,几个月里关于DeepSeek-V4的市场传闻不断。当时,国外科技媒体称V4模型将在今年春节发布,具有强大的编码能力。当一家公司最核心产品的动态被匿名信源热点话题、外媒报道和券商研报所定义时,讨论已偏离了技术轨道。DeepSeek官方从未对外界的消息做过任何确认,这种沉默又让讨论升级。
2月26日,事情迎来转折。路透社称,据知情人士透露,DeepSeek在发布V4之前没有向美国芯片公司英伟达和超微半导体提供模型早期访问权限,而是让中国企业华为提前数周开展软件适配优化工作。这种做法打破了行业惯例。显然,此时讨论的已不只是一个公司能否发布新产品的问题。
此次DeepSeek与华为昇腾国产芯片体系深度适配并不令人意外。去年8月,DeepSeek发布DeepSeek-V3.1时宣布采用UE8M0 FP8 Scale参数精度,特别表示这一数据格式是针对即将发布的下一代国产芯片设计。软件主动适配硬件特性,本质上是在为国产芯片“量体裁衣”。这背后的难度超乎想象,需要大量改写调用芯片的软件代码,使其与目标系统在各个环节都实现兼容。要想一款国产芯片嵌入既有的模型训练和推理体系,并达到可用、好用、能规模化使用的状态,往往需要长期摸索。当国产芯片开始在具体场景里能够接住原本由外国芯片承担的计算任务,企业就可以不再依赖特定进口型号。中国大模型不被定义 率道而行