中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

智源发布Emu3:图像文本视频大一统,多模态世界新突破!

2024-10-22来源:ITBEAR编辑:瑞雪

智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像及视频的理解与生成领域实现了显著突破。Emu3的创新之处在于,它仅需基于下一个token的预测,便能高效处理三种模态数据,无需依赖扩散模型或组合方法。

在图像生成方面,Emu3的性能超越了SD-1.5与SDXL模型;在视觉语言理解上,它则优于LlaVA-1.6;而在视频生成领域,Emu3的表现同样出色,超过了OpenSora 1.2。Emu3还具备强大的视觉tokenizer功能,能将视频和图像转换为离散token,与文本tokenizer输出的token共同送入模型处理。

研究表明,通过将复杂的多模态设计简化为token本身,Emu3在大规模训练和推理中展现出了巨大的潜力。目前,Emu3的关键技术和模型已经开源,项目页面也已正式上线。

对于研究人员而言,Emu3提供了一个统一的研究范式,值得深入探索。

长安启源E07新玩法:屏幕前脸车标随心换,你心动了吗?
快科技10月22日消息,日前,长安启源旗下中大型车启源E07上市,共推出7款车型,售价区间19.99-31.99万元。车辆除了搭载双激光雷达,智驾能力突出外,车辆配备的数字屏幕前脸也尤其有意思,有用户已经解锁…

2024-10-22

斯巴鲁新混动系统亮相:2.5L自吸引擎续航破千公里
10月22日消息,当地时间21日,斯巴鲁公布了其下一代混动系统的详细信息,并宣布搭载该系统的首款车型Crosstrek将于12月正式推出。新混合动力系统的核心是一台专为电气化设计的自然吸气式水平对置2…

2024-10-22