近日,Facebook母公司Meta方面发布了一款名为Megabyte的AI模型架构,并声称其解决了Transformer模型所面临的相关问题,在速度上提升了40%。据悉,目前市面上较为知名的生成式AI模型,例如OpenAI的GPT-4、Google的Bard等,均是基于Transformer打造。
对此Meta方面指出,由于设计中固有的两个重要缺陷,目前流行的Transformer模型可能正达到其阈值。据悉,Meta所指的Transformer架构的两个缺陷,分别是随着输入和输出字节长度的增加,自注意力的成本会迅速增加,例如输入的音乐、图像或视频文件通常包含数兆字节,而大型解码器 (LLM)目前通常只使用几千个上下文标记。以及前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词,但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作,从而导致大量的计算开销。
为解决当前transformer模型对输入和输出的限制,MetaByte模型引入了一个被称为patch的新概念。据悉,MetaByte模型架构可将输入和输出序列划分为固定大小的patches、而不是单个token。据Meta方面透露,Megabyte可对超过一百万字节的序列进行端到端可微分建模,跨多种格式生成超过100万个token。
据悉,这种架构使得其对于大多数任务而言,字节级别的预测相对容易,例如根据前几个字符即可预测完成的单词等。这也就意味着在大型网络中可以精简字符以提升效率,并且内部预测可以使用更小的模型进行。
此外值得一提的是,在计算效率方面,相比于等大的Transformer和Linear Transformer,Megabyte在固定模型大小和序列长度范围内使用更少的token,也意味着其在相同的计算成本下可训练内容更丰富、体积更大、性能更好的模型。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读: