首页 > 生活 > 正文
Qzone
微博
微信

360发布视觉大模型,称多模态是大模型必经之路

生活 三易生活网 2023-06-02 09:06

日前,360方面举行视觉大模型及AI硬件新品发布会,推出了360智脑·视觉大模型及多款AI硬件新品,并宣布360智慧生活正式进入SMB(中小型企业)市场,实现从家庭场景到企业商用的跨越。

在此次活动中,360创始人周鸿祎还发表了以“大模型开启AIoT新时代”为主题的演讲。他表示,过去的AI是弱AI,在此基础上打造的智能硬件不具有真正的智能,而大模型出现后,计算机第一次真正的理解这个世界,并能赋予AIoT真正的智能,大模型的出现标志着通用人工智能到来,AI也完成了从感知层到认知层的进化,不仅对传统AI而言是一场颠覆性的革命,还能够推动自动驾驶、蛋白质计算、机器人控制等领域的发展。

在他看来,“大模型将带来一场新工业革命”,所有软件、App、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的App。并且他还指出,从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力,因此多模态大模型与物联网的结合将会成为下一个风口。

据了解,360智脑·视觉大模型是360在视觉感知能力基础上,融合千亿参数“360智脑”大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调打造而来。

对此周鸿祎表示,大语言模型是构建视觉大模型的基础,多模态能力增强的核心是借助了大语言模型的认知、推理、决策能力。同时,视觉大模型也是360智脑的重要能力组成,使得360智脑能够看懂图片,未来还能看懂视频、听懂声音。

据悉,目前360智脑·视觉大模型主要聚焦开放目标检测(OVD)、图像标题生成、视觉问答(VQA)三项核心能力,可在长尾目标检测、巡店、看护、设备巡检等场景中实现广泛应用,并对传统深度学习算法形成很好的补充。

其中,开放目标检测是指通过学习互联网上海量的图文对数据,让模型能够学习到更多的目标类别。图像标题生成是理解图片的一种高级形式,能够满足用户准确获取信息的需求。视觉问答则是基于对图片的识别、理解、推理,回答使用自然语言提出的各种问题。

值得一提的是,在接受采访时周鸿祎还透露,360大语言模型更迭的新版本预计将在不久后发布。他表示,“一方面利用搜索来做知识模煳的校正,另一方面用大语言模型的生产能力让搜索变得更加智能,因此要做一个桌面的智能助理版本以及跟浏览器充分结合的版本。”

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: cxr4186

责任编辑: cxr4186
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com