DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装

9小时前热点话题1

  DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了!DeepSeek-OCR 论文的发布在一夜之间打破了大模型的传统范式。昨天下午,全新模型 DeepSeek-OCR 开源,该模型能够将1000个字的文章压缩成100个视觉token,压缩比达到十倍且精度可达97%。使用一块英伟达A100每天可处理20万页数据。这种处理方式可能解决大模型领域中的长上下文效率问题,并预示着大模型输入方式的重要转变。

  

  GitHub上,DeepSeek-OCR项目一夜之间获得了超过4000个Star。作为开源的小模型,它迅速经历了AI社区的检验,许多专家对此发表了看法。OpenAI联合创始成员之一、前特斯拉自动驾驶总监Andrej Karpathy认为这是一个很好的OCR模型。他更感兴趣的是,对于大语言模型而言,像素是否比文本更适合做输入?他提出,所有LLM的输入都应该是图像,即使有纯文本输入,也应先渲染再输入。这将带来更高的信息压缩率和更通用的信息流。

  

  Karpathy还强调了删除分词器的重要性。他认为分词器丑陋且独立存在,不是端到端的,引入了Unicode和字节编码的问题,增加了安全风险。此外,OCR只是众多有用的视觉-文本任务之一,文本-文本任务可以转换为视觉-文本任务,但反之则不行。

  

  纽约大学助理教授谢赛宁对Karpathy的观点表示赞同,尤其是关于计算机视觉与自然语言处理结合的部分。谢赛宁曾首次将Transformer架构与扩散模型结合,提出了扩散Transformer(DiT),为文生视频开辟了新道路。DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了

“DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装” 的相关文章

假期首日四川迎来旅游热潮 文旅消费活力激增

假期首日四川迎来旅游热潮 文旅消费活力激增

  5月1日,“五一”假期首日,四川迎来旅游热潮。据四川省文化和旅游产业领导小组办公室数据统计,截至当日17时,全省纳入统计的905家A级景区接待游客518.94万人次、门票收入4365....

车祸现场白车骑隔离栏将另一车压住 变道引发连环撞

车祸现场白车骑隔离栏将另一车压住 变道引发连环撞

  5月1日上午,杭长高速金溪特大桥发生一起连环车祸。江西公安交管局交警表示,事故由变道引发,未造成人员伤亡。   ...

马来西亚央行将于第四季度降息 支持经济增长

  根据路透的调查,预计马来西亚央行在周四会保持关键利率不变。然而,经济学家预测,在今年最后三个月内,为了支持因贸易紧张局势加剧而放缓的经济增长,马来西亚央行可能会将利率下调25个基点。3...

年轻人开始租三金结婚 应对金价飙升的新选择!

   年轻人开始租三金结婚   【年轻人开始租三金结婚】近日,“年轻人开始租三金结婚”的话题在网络上引发热议。随着金...

机构称关税对全球制造业造成巨大影响 半导体行业成本上升

  5月6日早盘,A股全线震荡上行,计算机、通信等科技赛道表现突出,自主可控主题走高。近期热度较高的科创半导体ETF(588170)涨超1.6%,信创ETF(562570)涨超2.6%。...

欧冠国米奖金1.36亿欧居首 晋级决赛再添1850万

欧冠国米奖金1.36亿欧居首 晋级决赛再添1850万

  国米成功晋级本赛季欧冠决赛,并因此获得了1850万欧元的奖金。在欧冠半决赛中,国米两回合总比分7-6战胜巴萨,顺利晋级。截至目前,国米在本赛季的欧冠总奖金已经达到1.32亿欧元。若国米...