DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装

9小时前热点话题1

　　DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装了！DeepSeek-OCR 论文的发布在一夜之间打破了大模型的传统范式。昨天下午，全新模型 DeepSeek-OCR 开源，该模型能够将1000个字的文章压缩成100个视觉token，压缩比达到十倍且精度可达97%。使用一块英伟达A100每天可处理20万页数据。这种处理方式可能解决大模型领域中的长上下文效率问题，并预示着大模型输入方式的重要转变。

　　GitHub上，DeepSeek-OCR项目一夜之间获得了超过4000个Star。作为开源的小模型，它迅速经历了AI社区的检验，许多专家对此发表了看法。OpenAI联合创始成员之一、前特斯拉自动驾驶总监Andrej Karpathy认为这是一个很好的OCR模型。他更感兴趣的是，对于大语言模型而言，像素是否比文本更适合做输入？他提出，所有LLM的输入都应该是图像，即使有纯文本输入，也应先渲染再输入。这将带来更高的信息压缩率和更通用的信息流。

　　Karpathy还强调了删除分词器的重要性。他认为分词器丑陋且独立存在，不是端到端的，引入了Unicode和字节编码的问题，增加了安全风险。此外，OCR只是众多有用的视觉-文本任务之一，文本-文本任务可以转换为视觉-文本任务，但反之则不行。

　　纽约大学助理教授谢赛宁对Karpathy的观点表示赞同，尤其是关于计算机视觉与自然语言处理结合的部分。谢赛宁曾首次将Transformer架构与扩散模型结合，提出了扩散Transformer（DiT），为文生视频开辟了新道路。DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装了

“DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装” 的相关文章

今日实时热点资讯

DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装

“DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装” 的相关文章

假期首日四川迎来旅游热潮文旅消费活力激增

车祸现场白车骑隔离栏将另一车压住变道引发连环撞

马来西亚央行将于第四季度降息支持经济增长

年轻人开始租三金结婚应对金价飙升的新选择！

机构称关税对全球制造业造成巨大影响半导体行业成本上升

欧冠国米奖金1.36亿欧居首晋级决赛再添1850万

Powered By Z-BlogPHP. Theme by TOYEAN.

今日实时热点资讯

DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装

“DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装” 的相关文章

假期首日四川迎来旅游热潮 文旅消费活力激增

车祸现场白车骑隔离栏将另一车压住 变道引发连环撞

马来西亚央行将于第四季度降息 支持经济增长

年轻人开始租三金结婚 应对金价飙升的新选择！

机构称关税对全球制造业造成巨大影响 半导体行业成本上升

欧冠国米奖金1.36亿欧居首 晋级决赛再添1850万

var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?94814b4c7734876c41315dcad7d55ce9"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

假期首日四川迎来旅游热潮文旅消费活力激增

车祸现场白车骑隔离栏将另一车压住变道引发连环撞

马来西亚央行将于第四季度降息支持经济增长

年轻人开始租三金结婚应对金价飙升的新选择！

机构称关税对全球制造业造成巨大影响半导体行业成本上升

欧冠国米奖金1.36亿欧居首晋级决赛再添1850万