DeepSeek最近开源了一个让人眼前一亮的模型——DeepSeek-OCR。

很多人会问,OCR不是早就有了吗?但这次不一样。

传统OCR处理一份100页的报告,需要成千上万个token,成本高。DeepSeek团队反其道而行:既然文字本来就在图片里,为什么不直接让AI"看"图片?把文档当成图像来压缩,10倍压缩率下,识别精度还能保持97%。

什么概念?一张A100显卡每天能处理20万页文档。

测试数据更惊人:DeepSeek-OCR只用100个视觉token就超过了竞品的256个token,比需要6000多token的方案还要准。

这个3B参数的模型已经完全开源,代码、权重全在GitHub上。

OpenAI联合创始人Karpathy都转发点赞,认为这种视觉优先的方法可能是大模型更好的输入方式。

对普通用户来说,未来处理PDF、扫描件会更快更便宜;对开发者来说,这是可以立即上手的生产级工具。

AI处理文档的方式,真的要变了