日前有消息显示,谷歌方面或将会在安卓版Gboard输入法中集成文本到图像生成器。通过反编译Google Play应用商店中最新的Gboard Beta版应用(12.7.05.507749191),发现在代码中有一些字符串应用了“Imagen Keyboard”。
具体而言,Imagen是谷歌的文本至图像的AI模型,能够通过给定的文本描述生成相关图像,并且Imagen在COCO基准上的表现要优于DALL-E 2,此外与类似的模型不同,它只对文本数据进行了预训练。根据相关代码中的内容显示,“Imagen Keyboard”功能将出现在快捷方式页面中,因此不难推测用户或将可以在“Imagen Keyboard”中输入文字来生成图片,但目前尚不清楚该功能何时上线。
据悉,谷歌方面没有使用图像-文本数据集来训练Imagen,反而简单地使用了“现成的”文本编码器T5,将输入文本转换成嵌入式向量。为了将嵌入式向量转换成图像,Imagen使用了一系列的扩散模型,而这些用于图像生成的AI模型使用了迭代的去噪过程,将Gaussian噪音转换成数据分布中的样本。
据悉,未来谷歌方面或将会在更多产品中添加AI相关功能,其中一些可能会在I/O 2023开发者大会上公布。此前在2月初,谷歌CEO桑达尔·皮查伊(Sundar Pichai)就已宣布,推出一款由LaMDA模型支持的对话式人工智能服务,并命名为Bard。当时桑达尔·皮查伊指出,谷歌搜索引擎将加入更多新的AI功能和服务,因为“人类的许多问题是主观且没有正确答案的,AI可以在这些时候提供帮助和综合见解……将复杂的信息和多个视角提炼成易于理解的形式,以便用户快速了解全局并从网上获得更多信息”。
但由于Bard在回答相关问题时给出了错误的答案,近期谷歌方面公司内部发起了一项代号为“斗狗”的活动,要求全体员工每周花费2-4个小时来帮助测试和改进Bard。
据悉,谷歌方面要求员工要把Bard教得“有礼貌、随和、平易近人”,并应让它“以第一人称”来回答问题,以及保持“无偏见、中立的语气”。同时还要求Bard的回答不能有刻板印象,并需避免根据种族、国籍、性别、年龄、宗教、政治意识形态等进行推测,以及“不要把Bard描述成一个人,暗示情感,或声称有类似人类的经历”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读: