首页 > 生活 > 正文
Qzone
微博
微信

阿里巴巴预计明年Q1推出首款数字人+终端产品

生活 三易生活网 2022-11-09 13:12

在日前举行的云栖大会上,阿里巴巴集团研究员李小龙透露,目前正在研发由数字人全面接管的终端交互引擎,并且首款“数字人+终端”产品预计将会在2023年第一季度向用户开放体验。据称,该项目是由达摩院自然语言、语音、视觉、3D构建驱动,以及大模型领域团队,和天猫精灵AliGenie交互系统专家等多个团队共同研发。

同时,李小龙还列举了达摩院近两年在自然语言、语音、视觉、3D构建驱动及多模态大模型等领域,积累的百项专利与顶会论文,并表示通过将这些成果在诸多交互场景的验证,一个以多模态大模型为基础的数字人的引擎已初显雏形。

据了解,自2022年起,达摩院多模态大模型就开始应用于天猫精灵语音搜索与百科场景,目前各方正将合作场景推向AliGenie交互的系统层和用户感知层。据天猫精灵产品规划负责人卢勇透露,接入AliGenie系统的终端已覆盖4000多万家庭、包含1600多个品牌的4.6亿已接入产品,能让数字人在可持续、大规模、组合式的场景与用户交互。此外AliGenie方面此前公布的相关数据还显示,仅智能音箱产品每月交互次数便已超80亿次,且其中70%是主动型服务。

值得一提的是,多模态大模型可提升数字人的自主对话能力。其中以天猫精灵日常对话场景为例,通过大模型底座进一步训练的对话大模型mPLUG-dialog,将可能会成为包含知识、情感、个性、记忆的全新交互系统。

具体而言,在内容上天猫精灵不再是单纯地按知识库或搜索结构在检索和回答问题,而是综合上述四个维度,给出更有趣更有情商的回复。在声音上也不再是字正腔圆的播报音,而是会包含更丰富更细腻的情绪。

对此有观点认为,以多模态大模型驱动的智能化,理论上也非常适合缺乏数据、场景碎片化的智能终端场景。例如由通义多模态大模型训练的数字人,可以具备可泛化的认知驱动能力,能够根据音乐进行舞蹈、根据文字产生行动,而这也改变了过去完全要单一维度数据训练的模式,能够让数字人迁移场景提供服务。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: xm4185

责任编辑: xm4185
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com