炒股配资平台_股票配资公司_股票杠杆平台_线上配资官网

阿里开源全能视频大模型,单一模型支持视频生成与编辑全功能

阿里巴巴近期推出了一款开源全能视频大模型,该模型单一支持视频生成和编辑的全流程,该模型具备高度智能化和自动化特点,能够高效处理视频内容,提升视频制作效率和质量,这一创新技术的出现,有望为视频行业带来革命性的变革,促进视频内容创作的繁荣和发展。

每经杭州5月14日电(记者叶晓丹)5月14日晚,《每日经济新闻》记者获悉,阿里巴巴正式开源通义万相Wan2.1-VACE,这是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。本次共开源1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行。

阿里开源全能视频大模型,单一模型支持视频生成与编辑全功能-图1

据阿里云方面介绍,Wan2.1-VACE基于通义万相文生视频模型研发,同时创新性提出了全新的视频条件单元(VCU),它在输入形态上统一了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务;同时,Wan2.1-VACE还进一步解决了多模态输入的token(词元)序列化难题,将VCU输入的帧序列进行概念解耦,分开重构成可变序列和不可变序列后进行编码。

据了解,自今年2月以来,通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型,目前在开源社区的下载量已超330万。

封面图片来源:视觉中国-VCG211478193393

分享:
扫描分享到社交APP
上一篇
下一篇