DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了!DeepSeek-OCR 论文的发布在一夜之间打破了大模型的传统范式。昨天下午,全新模型 DeepSeek-OCR 开源,该模型能够将1000个字的文章压缩成100个视觉token,压缩比达到十倍且精度可达97%。使用一块英伟达A100每天可处理20万页数据。这种处理方式可能解决大模型领域中的长上下文效率问题,并预示着大模型输入方式的重要转变。
GitHub上,DeepSeek-OCR项目一夜之间获得了超过4000个Star。作为开源的小模型,它迅速经历了AI社区的检验,许多专家对此发表了看法。OpenAI联合创始成员之一、前特斯拉自动驾驶总监Andrej Karpathy认为这是一个很好的OCR模型。他更感兴趣的是,对于大语言模型而言,像素是否比文本更适合做输入?他提出,所有LLM的输入都应该是图像,即使有纯文本输入,也应先渲染再输入。这将带来更高的信息压缩率和更通用的信息流。
Karpathy还强调了删除分词器的重要性。他认为分词器丑陋且独立存在,不是端到端的,引入了Unicode和字节编码的问题,增加了安全风险。此外,OCR只是众多有用的视觉-文本任务之一,文本-文本任务可以转换为视觉-文本任务,但反之则不行。
纽约大学助理教授谢赛宁对Karpathy的观点表示赞同,尤其是关于计算机视觉与自然语言处理结合的部分。谢赛宁曾首次将Transformer架构与扩散模型结合,提出了扩散Transformer(DiT),为文生视频开辟了新道路。DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了