DeepSeek一句话让国产芯片集体暴涨 UE8M0 FP8引爆市场
DeepSeek一句话让国产芯片集体暴涨!DeepSeek V3.1发布后,一则官方留言让整个AI圈轰动了。短短不到20个字的留言蕴含了巨大信息量,引发了国产芯片企业股价上涨。例如寒武纪早盘大涨近14%,总市值跃居科创板头名。半导体ETF也在半天内大涨5.89%。
人们纷纷对UE8M0 FP8的概念产生疑问。UE8M0 FP8可以拆分成两部分解释。前面的UE8M0是MXFP8路径里的“缩放因子”。MXFP8是Open Compute Project在2023年发布的8 bit微缩块格式。Open Compute Project是一个由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,旨在通过共享数据中心及服务器设计推动行业效率提升。其成员包括微软、谷歌、亚马逊、AMD、英伟达以及国内的阿里、腾讯、百度等。
MXFP8以FP8为基础建立,FP8是一种将常规浮点格式压缩到8 bit的编码方式。MXFP8的核心思想是把张量切成固定长度的“块”,然后为每个块指定一个2的整数次幂作为“缩放因子”,将块内所有数除以这个系数后再写成FP8。这种块级的缩放既保留了8 bit位宽,又扩展了可用动态范围几十倍。UE8M0中的U表示无符号,E和M分别表示指数位和尾数位分配到的bit数,E8M0指8个bit全都分配给了指数位。其他常用的格式还有E4M3、E5M2等。
采用全指数表示缩放因子的方式有诸多好处。由于UE8M0不含尾数与符号位,处理器在根据缩放因子复原数据时只需移动指数位,而不需要浮点乘法或规格化,缩短了时钟关键路径。此外,UE8M0的动态范围覆盖广泛,能解决单尺度FP8无法同时顾及大/小值的问题,大幅减少信息损失。
大部分已量产的国产AI加速器仍沿用FP16/BF16 + INT8的计算通路,并未集成完整的FP8乘加单元。不过,摩尔线 NPU等新款国产芯片已经在宣传资料中列出“原生 FP8”或“Block FP8”支持,并与 DeepSeek、华为等15家厂商联合验证UE8M0格式。虽然下一代国产芯片已在为FP8做出准备,但HBM/LPPDDR带宽仍然与顶尖芯片存在较大差距。UE8M0让一组32个FP8数据只追加8bit缩放引子,相比传统的4B(32bit) FP32缩放直接节省75%的流量,被视为下一代架构的重要优化方向。
网友们猜测DeepSeek提到的是哪家国产芯片。市场反应显示,寒武纪被看好,其MLU370-S4、思元590及最新690系列芯片均支持FP8计算。海光、沐曦、中昊芯英和摩尔线程等公司也被提及。例如,海光深算三号DCU支持FP8计算;沐曦今年7月发布的曦云C600也支持FP8精度计算;中昊芯英的“刹那”TPU AI芯片支持FP8精度;摩尔线精度计算。华为昇腾虽然目前暂不支持原生FP8,但官方路线图表明未来会支持。DeepSeek一句话让国产芯片集体暴涨 UE8M0 FP8引爆市场