DeepSeek新模型曝光 Model1核心演进方向揭晓

6个月前 (01-21)热点话题14

　　DeepSeek新模型曝光 Model1核心演进方向揭晓！1月21日，DeepSeek-R1在GitHub上的代码提交疑似剧透了DeepSeek的下一代模型。开发者发现，DeepSeek旗下的FlashMLA优化库近期迎来了一波密集更新。

　　在一堆C++代码中出现了一个从未见过的代号“Model1”。与以往的小修小补不同，代码逻辑将Model1置于了与当前旗舰V3.2完全独立的平行分支。技术社区普遍认为这是下一代大模型DeepSeek-V4的内部开发代号。根据对相关代码提交的解读，Model1展示了DeepSeek下一代技术架构的几个核心演进方向。

　　在架构层面，Model1回归到512维。DeepSeek V3曾以独特的576维非对称MLA惊艳四座，这在当时是为了极致压缩KV Cache的非常规手段。但在Model1中，head_dim参数被重新设定为512维。这一回归标准的动作能更完美地对齐GPU的Tensor Core计算特性。DeepSeek可能已经找到了无需依赖非标维度也能实现高压缩率的新方法热点话题，或许是代码中提及的Engram机制，从而换取更高的计算通用性。

　　此外，Model1的代码库中出现了大量针对SM100，即英伟达最新算力硬件NVIDIA Blackwell B200的专用接口。这表明DeepSeek或许基本完成了对2026年旗舰显卡的指令集适配。测试数据显示，Model1的稀疏算子在B200上的算力利用率已达350 TFlops，显示出其准备充分。

　　代码中还出现了FP8格式的KV Cache支持，并引入了test_flash_mla_sparse_decoding测试脚本。这意味着DeepSeek正在将MLA机制从“全量计算”进化为“Token级稀疏计算”，允许模型在处理超长上下文时动态忽略不重要的Token，从而在显存占用和推理速度上实现数量级的优化。

　　DeepSeek曾在2025年1月20日发布R1模型，开启了新的开源LLM时代。今天是R1发布一周年，Model1有望给AI领域带来新的变化。DeepSeek新模型曝光 Model1核心演进方向揭晓

热点资讯

DeepSeek新模型曝光 Model1核心演进方向揭晓

“DeepSeek新模型曝光 Model1核心演进方向揭晓” 的相关文章

父母养老，独生子女的愁！独生子女一代面临父母养老困境

“出入随手关门，防蛇人人有责！”在非洲上班一定记得随手关门

今晨发生地磁暴中国夜空现绚丽极光多地观测到罕见景象

戴帽子的重要性下雪后人体7成的热量从头部散发

湖北潜江铲雪车上路破冰保畅通应急响应机制全面启动

嫣然回应暂停接收捐款项目预算已筹满

Powered By Z-BlogPHP. Theme by TOYEAN.

热点资讯

DeepSeek新模型曝光 Model1核心演进方向揭晓

“DeepSeek新模型曝光 Model1核心演进方向揭晓” 的相关文章

父母养老，独生子女的愁！独生子女一代面临父母养老困境

“出入随手关门，防蛇人人有责！”在非洲上班一定记得随手关门

今晨发生地磁暴 中国夜空现绚丽极光 多地观测到罕见景象

戴帽子的重要性 下雪后人体7成的热量从头部散发

湖北潜江铲雪车上路破冰保畅通 应急响应机制全面启动

嫣然回应暂停接收捐款 项目预算已筹满

var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?94814b4c7734876c41315dcad7d55ce9"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

今晨发生地磁暴中国夜空现绚丽极光多地观测到罕见景象

戴帽子的重要性下雪后人体7成的热量从头部散发

湖北潜江铲雪车上路破冰保畅通应急响应机制全面启动

嫣然回应暂停接收捐款项目预算已筹满