随着AI技术的不断革新,视频生成领域迎来了新的突破。近日,360AI团队与中山大学联合开发的正式开源,其强大的生成能力和广泛的适用性吸引了大量关注。不仅能在消费级显卡(如 )上运行,还能实现任意分辨率、任意宽高比、不同风格及不同运动幅度的视频生成。
:跨帧文本引导初显身手
是一款基于UNet架构的视频生成模型,其中最核心的创新是引入了跨帧文本引导模块(Cross-frame , CTGM)。CTGM包括三个子模块:时序信息注入器( , TII)、时序特征提取器( , TAR)、时序特征增强器( , TFB)。这些模块通过在不同帧之间灵活地注入和提取信息,克服了现有模型在生成连续运动视频时的局限性。
具体来说,TII将帧特定信息注入文本条件,使跨帧文本条件更加丰富;TAR沿时间维度细化文本条件与特征之间的相关性;TFB则增强了特征的一致性。这些模块共同作用,使在生成视频时能够保持较高的连贯性和一致性。
创新训练流程:兼顾质量与效率
的训练流程也是其亮点之一。作者在传统的2D文本到图像(T2I)模型基础上插入时序层和基于CTGM的运动模块,使得生成过程先进行T2I操作生成首帧,再进行图像到视频(I2V)操作。这一流程不仅保留了T2I模型的高画质,还大幅减少了训练成本。在训练阶段,基于RAFT提取视频运动信息和时间嵌入(time )一起注入网络,从而实现对视频运动的精确控制。
的性能表现优异。实验证明,在 上,它在视频生成质量、文本一致性、运动性和时序一致性方面均占据领先地位;在UCF-101和MSR-VTT 上的Zero-shot评测中,其生成视频的丰富性和文本一致性也均达到了SOTA(state-of-the-art)水平。
实际应用与未来展望
基于这种高效的训练流程和创新的模块设计,不仅能完成文本到视频(T2V)的生成任务,还能通过插帧操作进行视频扩展和回溯。开源社区的用户已经开始基于开发各种实用插件,让模型在更多场景中发挥作用。团队还透露,未来将推出更长、更精细的视频生成模型,同时上线网页版本供用户免费使用。
在当今AIGC(AI )时代,的出现,使得视频生成不再是专业人士的专利。任何人都可以在普通的消费级设备上创作出高质量的视频,推动了内容创作的普及。
AI绘画与AI写作:激发创造潜能
的成功发布,不仅为视频生成领域注入了新的活力,也为AI绘画和AI写作工具带来了新的启示。在AI绘画方面,工具如DALL·E、等,已使用户可以轻松生成各种风格和主题的图像。而在AI写作领域,像GPT-3和这样的模型,已经帮助大量内容创作者提高了创作效率。
·
相比,市场上还有很多AI工具可以帮助用户实现创意。特别推荐“简单AI”这一工具,它是搜狐旗下的全能型AI创作助手,集成了AI绘画、文生图、图生图、AI文案、AI头像等多项功能。不论是生成创意美图还是撰写爆款文章,简单AI都能大大提升用户的创作效率。
结论
的发布为开源视频生成模型带来了前所未有的可能性,让人人都能在日常生活和工作中轻松创造出高质量的视频内容。随着社区的不断发展和更多用户的参与,视频生成这一复杂任务将变得更加普及和易用。
在我使用了数十家AI绘画、AI生文工具后,强烈推荐给大家以下这个工具——简单AI。简单AI是搜狐旗下的全能型AI创作助手,包括AI绘画、文生图、图生图、AI文案、AI头像、AI素材、AI设计等。可一键生成创意美图,3步写出爆款文章。网站提供生成创意美图、动漫头像、种草笔记、爆款标题、活动方案等多项AI创作功能。工具链接:
323AI导航网发布