智源发布原生多模态世界模型 Emu3，宣称实现图像文本视频大一统 - 科技 - 智能科技网-教育金融最新消息

首页 > 科技 >

智源发布原生多模态世界模型 Emu3，宣称实现图像文本视频大一统

发布时间：2024-10-22 16:29:24来源：

10 月 21 日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。

据介绍，Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。

▲Emu3 生成的图像

Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型，附链接如下：

代码：https://github.com/baaivision/Emu3

项目页面：https://emu.baai.ac.cn/

模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关阅读

谷歌 Fluid 颠覆共识，AI 文生图领域自回归模型超越扩散模型

10 月 23 日消息，科技媒体 The Decoder 昨日（10 月 22 日）发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院（MIT），推 [详细]

财经推荐

教育&科普

图片快讯丨国家主席习近平抵达喀山

图片快讯丨国家主席习

高适：燕歌行·并序韩愈：谒衡岳庙遂宿岳寺题门楼韩愈：石鼓歌韩愈：山石

最新资讯

关于我们| 联系方式| 版权声明| 免责声明|

智能科技网-教育金融最新消息版权所有，未经书面授权禁止使用

智能科技网-教育金融最新消息主办版权所有：智能科技网-教育金融最新消息 Copyright © 2007-2019 by http://zh.ai-ep.com/ All Rights Reserved

广播电视节目制作经营许可证（京）字第04446号辽ICP备19001176号-2