中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

2024-11-07来源:中文科技资讯编辑:芳华

Sora爆火以来,“视频生成模型到底懂不懂物理规律”受到热议,但业界一直未有研究证实。近日,字节跳动豆包大模型团队公布最新论文,研究历时8个月,围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。

图灵奖得主、meta首席AI科学家杨立昆点赞并转发了该研究,表示“结论不令人意外,但很高兴终于有人做了这个尝试!”

自OpenAI发布Sora模型以来,很多视频生成模型都会强调其生成结果对物理规律的遵循。豆包大模型视觉团队相关小组,对视频生成模型究竟能否从视觉数据中“发现”并“理解”物理定律感到好奇,决定深入研究。

历时8个月,该团队完成了业界首个系统性的实验研究。团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有“世界模型”的潜力。

实验中设计的不同运动场景

豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。

以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。

然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。

通过进一步的实验分析,研究团队得出结论,“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”

不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。

据了解,本研究两位核心一作都非常年轻,一位是95后,一位是00后,在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。

今年以来,字节跳动在大模型领域不断加大投入,底层研究、基础模型、AI应用均有亮眼产出。不久前,字节豆包大模型团队还发起了Top Seed人才计划,在全球范围持续招募大语言模型、视觉、语音、大模型基座等领域的顶尖研究人才,提供充分的创新探索空间。

研究论文链接:https://arxiv.org/pdf/2411.02385

研究成果网站:https://phyworld.github.io/#combo_gen

陈佩斯《戏台》南京开演,“轻功登台”快闪装置引打卡热潮#vivoXFold5
陈佩斯《戏台》南京开演,“轻功登台”快闪装置引打卡热潮#vivoXFold5

2025-06-27

美团外卖日单量连日超过9000万,餐食外卖市占率稳占70%
“从日GMV看,市场格局仍然处在7:2:1的稳定阶段。”作者丨代聪飞编辑丨林觉民6月17日,雷峰网独家获得一组流传的数据显示,自6月中旬开始,美团外卖日均支付订单始终维持在9000万量级以上,从单日GMV和餐食外卖市场单量等角度看,美团外卖市占率稳居70%左右。

2025-06-18

GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径
“人工智能的翻译可能存在一个误会,它更适合叫‘人造智能’,对应的是‘神造智能’。‘人造智能’模拟了神造智能过程中的规律;如今我们也可以从人造智能身上重新学回‘神’的智慧。”6月8日上午,每日互动方毅在2025全球人工智能技术大会(GAITC)智能传媒专题

2025-06-11

每日互动荣登“2025年度浙商‘AI+’TOP100”榜单
摘要:用技术赋能产业,以创新链动未来6月4日,由浙商发展研究院、浙江日报报业集团、浙江省创业投资协会、浙江省股权投资行业协会指导,《浙商》杂志、《浙商》全国理事会联合主办的“2025年度浙商‘AI+’TOP100”榜单正式发布。每日互动凭借在AI技术融合、

2025-06-06

青岛疾控中心公益视频: 结核分枝杆菌潜伏感染者预防性治疗大冒险
视频来源:青岛市疾病预防控制中心青岛市预防医学研究院青岛市卫生健康大数据中心

2025-03-27

DeepGreenX中国公司荣获“2025福布斯中国行业发展领军企业”奖项
2025年3月22日,在2025沙利文中国企业家年会暨“福布斯中国行业发展领创者评选”颁奖典礼上,阳光七星投资集团旗下企业DeepGreenX集团(以下简称“DXG”)旗下的中国公司凭借其在行业创新、市场领导力及可持续发展方面的卓越表现,荣获“2025福布斯中国行业发展

2025-03-24

吴征博士荣获“2025福布斯中国行业发展领创者”称号
吴征博士荣获“2025福布斯中国行业发展领创者”称号 引领阳光七星投资集团迈向全球创新新高地2025年3月22日,在2025沙利文中国企业家年会暨“福布斯中国行业发展领创者评选”颁奖典礼上,阳光七星投资集团主席兼CEO吴征博士凭借其卓越的领导力、创新精神及对

2025-03-24

2025年呼叫中心品牌排行,如何选择智能呼叫系统?
呼叫中心已从传统电话接听演变为企业连接客户的核心枢纽,一套高效、稳定且智能的呼叫系统,是企业提升服务效率、优化用户体验的关键基建。本文将基于行业调研与市场反馈,梳理当前呼叫中心品牌排行的核心逻辑,并深度解析头部厂商的产品价值,为企业选型提供

2025-03-17

2025世俱杯奖杯重庆首秀 让球迷心动的竟是影院级激光电视
3月10日,2025海信X FIFA世俱杯奖杯中国行在重庆解放碑广场盛大举行,世俱杯奖杯首次亮相中国,点燃众多球迷参与的热情。作为2025国际足联俱乐部世界杯全球官方电视,海信激光电视现场演绎出如同比赛现场的沉浸氛围,足球名宿孙继海参与现场互动,将活动氛围

2025-03-13