首页 > 生活 > 正文
Qzone
微博
微信

DeepSeek已逐步开放“识图模式”,或将首次融资

生活 三易生活网 2026-05-09 21:32

继此前在4月底有消息称,DeepSeek已开始灰测“识图模式”,并且其拥有一级入口,与既有的“快速模式”、“专家模式”并列后。日前有消息显示,DeepSeek“识图模式”已大范围开放,但仍带有“图片理解功能内测中”的标注。

据称,DeepSeek“识图模式”并非简单的OCR文字提取,而是具备完整的复杂多模态识别与深度图像理解能力。目前有用户实测了上传食品包装、概念手机图等,DeepSeek能准确识别品牌、成分、设计特征,并给出实用建议。

但有观点指出,“目前DeepSeek‘识图模式’本质上是纯视觉理解模块,它主要集中在图片识别与分析层面,尚未集成图像生成、视频理解或跨模态交互等更为广义的多模态功能”。

需要注意的是,在“识图模式”上线后不久,DeepSeek方面曾发布一篇题为《Thinking with Visual Primitives》(以视觉原语思考)的技术论文,疑似公开了“识图模式”背后的多模态模型技术细节,但其发布后不久便被撤回。

相关报道显示,DeepSeek方面在该论文中指出,传统多模态大模型在面对密集场景时存在一种名为“指代鸿沟”的困境,即模型虽然能看见图片,但由于自然语言天然具有模煳性,因此在推理过程中用“左边那个大的”等模煳的自然语言构建逻辑链时,很容易因描述不准导致注意力漂移。

为解决这一问题,DeepSeek通过为模型“视觉原语”(Visual Primitives)框架,让模型将点、边界框代表空间位置的视觉元素标记为最小思维单元。这就意味着模型在推理时能一边“想”一边“指”,将抽象的语言逻辑指向到具体空间坐标。

继不久前有传言称,DeepSeek正就首次引入外部资本展开洽谈后。日前有消息源透露,DeepSeek方面或计划在首轮融资中筹集500亿元资金,且该公司创始人梁文锋或将投资200亿元。相关消息源称,DeepSeek这轮融资的投后估值将有望突破3500亿元。

此外据相关消息源透露,DeepSeek方面近期已向部分投资者表示,计划加快大模型迭代发布节奏,向行业主流看齐。据称,该公司计划在6月推出V4模型的迭代版本V4.1。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: fjq4191

责任编辑: fjq4191
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 新飞网版权所有