360发布视觉大模型，称多模态是大模型必经之路

生活三易生活网 2023-06-02 09:06

日前，360方面举行视觉大模型及AI硬件新品发布会，推出了360智脑·视觉大模型及多款AI硬件新品，并宣布360智慧生活正式进入SMB（中小型企业）市场，实现从家庭场景到企业商用的跨越。

在此次活动中，360创始人周鸿祎还发表了以“大模型开启AIoT新时代”为主题的演讲。他表示，过去的AI是弱AI，在此基础上打造的智能硬件不具有真正的智能，而大模型出现后，计算机第一次真正的理解这个世界，并能赋予AIoT真正的智能，大模型的出现标志着通用人工智能到来，AI也完成了从感知层到认知层的进化，不仅对传统AI而言是一场颠覆性的革命，还能够推动自动驾驶、蛋白质计算、机器人控制等领域的发展。

在他看来，“大模型将带来一场新工业革命”，所有软件、App、网站，所有行业都值得用大模型进行重塑，而智能硬件是硬件化的App。并且他还指出，从大模型的发展趋势来看，多模态是大模型发展的必经之路，GPT-4最重要的变化是拥有了多模态的处理能力，因此多模态大模型与物联网的结合将会成为下一个风口。

据了解，360智脑·视觉大模型是360在视觉感知能力基础上，融合千亿参数“360智脑”大模型，基于十亿级互联网图文数据进行清洗训练，并针对安防场景百万级行业数据进行微调打造而来。

对此周鸿祎表示，大语言模型是构建视觉大模型的基础，多模态能力增强的核心是借助了大语言模型的认知、推理、决策能力。同时，视觉大模型也是360智脑的重要能力组成，使得360智脑能够看懂图片，未来还能看懂视频、听懂声音。

据悉，目前360智脑·视觉大模型主要聚焦开放目标检测（OVD）、图像标题生成、视觉问答（VQA）三项核心能力，可在长尾目标检测、巡店、看护、设备巡检等场景中实现广泛应用，并对传统深度学习算法形成很好的补充。

其中，开放目标检测是指通过学习互联网上海量的图文对数据，让模型能够学习到更多的目标类别。图像标题生成是理解图片的一种高级形式，能够满足用户准确获取信息的需求。视觉问答则是基于对图片的识别、理解、推理，回答使用自然语言提出的各种问题。

值得一提的是，在接受采访时周鸿祎还透露，360大语言模型更迭的新版本预计将在不久后发布。他表示，“一方面利用搜索来做知识模煳的校正，另一方面用大语言模型的生产能力让搜索变得更加智能，因此要做一个桌面的智能助理版本以及跟浏览器充分结合的版本。”

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】