中文科技资讯
业界资讯 互联网 手机资讯 电脑硬件 数码产品 家电产品 APP应用 手机游戏 美通快讯

阿里通义万相发布业界领先首尾帧视频生成模型,开源引关注

2025-04-17来源:ITBEAR编辑:瑞雪

阿里通义万相今日宣布了一项重大技术突破,正式向公众开源其创新的“首尾帧生视频模型”。该模型以惊人的140亿参数规模,在业界首次实现了如此大规模的开源首尾帧视频生成技术。

这款模型的核心功能在于,用户仅需提供一张起始图片和一张结束图片,它便能自动生成一段高清720p的视频,完美衔接首尾画面。这一技术的问世,无疑将为用户带来前所未有的视频生成体验,满足更加个性化和定制化的需求。

为了让更多用户能够轻松体验这一前沿技术,阿里通义万相提供了多种获取途径。用户可以直接访问通义万相官网,免费试用该模型;同时,该模型也已在Github、Hugging Face以及魔搭社区等平台上线,供开发者下载并进行本地部署和二次开发。

首尾帧生视频技术相较于文生视频和单图生视频,具有更高的可控性。然而,这类模型的训练难度也相应提升。为了确保生成的视频内容既与用户输入的两张图像保持一致,又能遵循用户的提示词指令,同时实现从首帧到尾帧的自然、流畅过渡,阿里通义万相团队在模型设计上下了不少功夫。

基于现有的Wan2.1文生视频基础模型架构,团队引入了额外的条件控制机制,从而实现了首尾帧视频生成的精准与流畅。在训练阶段,团队构建了专门用于首尾帧模式的训练数据,并采用了并行策略来优化文本与视频编码模块以及扩散变换模型模块,这不仅提升了模型的训练效率,还确保了高清视频生成的效果。

在推理阶段,面对有限的内存资源,团队采用了模型切分策略和序列并行策略,在确保推理效果不受影响的前提下,大幅缩短了推理时间,使得高清视频推理成为可能。

这款首尾帧生视频模型不仅技术先进,而且在功能上也有着诸多亮点。用户可以利用它完成更加复杂和个性化的视频生成任务,如实现同一主体的特效变化、不同场景的运镜控制等。例如,用户只需上传两张相同位置但不同时间段的外景图片,并输入一段提示词,模型便能生成一段展现四季交替或昼夜变化的延时摄影效果视频。用户还可以通过旋转、摇镜、推进等运镜控制,将两张不同画面的场景巧妙衔接,使视频在保持与预设图片一致性的同时,拥有更加丰富的镜头语言。

这一技术的推出,无疑将为视频创作领域带来一场革命性的变革。无论是专业视频制作者还是普通用户,都将能够利用这一技术轻松实现心中的创意,创作出独一无二的视频作品。

技嘉B860M冰雕主板深度评测:千元价位与酷睿Ultra的完美搭档
XMP AI Boost的DDR5-8200 CL40挡位也能够顺利开启,再叠加上高带宽、低延迟功能的性能加成之后,内存性能继续得到提升,但写入性能基本上是到顶了,主要是受限于B860芯片组主板无法调整CP…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布 涵盖多领域促发展
11月13日,杭州市上城区第三批“人工智能+”机会场景发布会暨场景供需对接会活动举行,推出50个高价值场景,涵盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个热门领域。如,由上城…

2025-11-14

高光谱探测器助力宽带叠层扫描成像 开启3D高光谱成像新篇
最近的研究表明,能量分辨或高光谱探测器可以在某种程度上取代单色器的作用来执行,例如,在单次采集中使用宽带辐射进行边缘减影叠层扫描成像。利用这样的探测器,时间相干性变得可调(在探测器的能量分辨率的限制内)并且在…

2025-11-12

乐鑫年会背后:17年创新坚守,从芯片到生态开启万物互联新征程
重要的是早在2024年,乐鑫科技就已成功突破Wi-Fi 6E技术,完成2.4GHz/5GHz/6GHz全频段技术布局,为Wi-Fi7产品研发奠定核心技术基础。 乐鑫从单枪匹马的上海浦东到登录科创板的行业排…

2025-11-12

中国电信携手多方完成2万公里中轨NTN在轨验证 助力6G天地一体组网
试验配置 Ka 频段 100MHz 带宽,基于自研的 NTN 终端样机,完成 FR2 频段 n510参数配置的透明转发模式在轨通信技术验证及海域宽带应用试点,实测下行峰值速率达 140Mbps(IT之家注…

2025-11-11

湖北Steam Deck下载遇阻?连接超时不用慌,这些方法助你畅享游戏
下载并安装UU加速器打开UU加速器,搜索并选择"Steam"在加速选项中,特别选择"下载异常专用"区服启动加速后再打开Steam Deck进行下载许多湖北用户反馈,使用这种方式后,原本停滞的下载进度条重新开…

2025-11-11

毕马威进博会聚焦运营服务:以智能驱动,助企业迈向可持续增长新路
毕马威运营服务四大核心价值运营重塑(Operational Reinvention)不只是把流程自动化,而是让智能成为业务的一部分。 在复杂监管中确保透明与合规在多业务场景中提升客户体验与决策质量在跨职能协作…

2025-11-11

解码细胞“对话”密码:单细胞转录组技术洞察疾病微环境奥秘
3. 通讯潜力: 如果细胞A表达配体,同时细胞B表达匹配的受体,那么A to B 的信号通路就被认为具有潜在的通讯活性。如果发现成纤维细胞通过TGF-β 信号轴强烈抑制 NK 细胞,那么 TGF-β 阻断…

2025-11-11

2025年AI智能鼠标深度体验:星火大模型赋能,它能替代哪些办公工具?
AI智能鼠标2025深度测评:星火大模型加持,AI问答、AI绘图能替代哪些工具?当一款鼠标,内嵌了如科大讯飞星火这般强大的认知大模型时,它所带来的,远不止是光标移动的流畅,更是一场关于效率与创造力的革命。我们…

2025-11-10