谷歌Gboard输入法或加入新功能，可自动生成图像

生活三易生活网 2023-02-28 11:42

日前有消息显示，谷歌方面或将会在安卓版Gboard输入法中集成文本到图像生成器。通过反编译Google Play应用商店中最新的Gboard Beta版应用（12.7.05.507749191），发现在代码中有一些字符串应用了“Imagen Keyboard”。

具体而言，Imagen是谷歌的文本至图像的AI模型，能够通过给定的文本描述生成相关图像，并且Imagen在COCO基准上的表现要优于DALL-E 2，此外与类似的模型不同，它只对文本数据进行了预训练。根据相关代码中的内容显示，“Imagen Keyboard”功能将出现在快捷方式页面中，因此不难推测用户或将可以在“Imagen Keyboard”中输入文字来生成图片，但目前尚不清楚该功能何时上线。

据悉，谷歌方面没有使用图像-文本数据集来训练Imagen，反而简单地使用了“现成的”文本编码器T5，将输入文本转换成嵌入式向量。为了将嵌入式向量转换成图像，Imagen使用了一系列的扩散模型，而这些用于图像生成的AI模型使用了迭代的去噪过程，将Gaussian噪音转换成数据分布中的样本。

据悉，未来谷歌方面或将会在更多产品中添加AI相关功能，其中一些可能会在I/O 2023开发者大会上公布。此前在2月初，谷歌CEO桑达尔·皮查伊（Sundar Pichai）就已宣布，推出一款由LaMDA模型支持的对话式人工智能服务，并命名为Bard。当时桑达尔·皮查伊指出，谷歌搜索引擎将加入更多新的AI功能和服务，因为“人类的许多问题是主观且没有正确答案的，AI可以在这些时候提供帮助和综合见解……将复杂的信息和多个视角提炼成易于理解的形式，以便用户快速了解全局并从网上获得更多信息”。

但由于Bard在回答相关问题时给出了错误的答案，近期谷歌方面公司内部发起了一项代号为“斗狗”的活动，要求全体员工每周花费2-4个小时来帮助测试和改进Bard。

据悉，谷歌方面要求员工要把Bard教得“有礼貌、随和、平易近人”，并应让它“以第一人称”来回答问题，以及保持“无偏见、中立的语气”。同时还要求Bard的回答不能有刻板印象，并需避免根据种族、国籍、性别、年龄、宗教、政治意识形态等进行推测，以及“不要把Bard描述成一个人，暗示情感，或声称有类似人类的经历”。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】