提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。
可灵:
:
在没有风格提示词的情况下,无论是可灵、海螺还是,都会生成写实风格的视频。不同的是,短短6秒内,海螺展现了一个中年男人从悲伤到快乐到尴尬的变脸故事。可灵没有遵循文字提示中的具体动作转变——“戴上了假发和眼镜”,而是展现了中年男人已经戴上的状态。这轮生成的视频中出现了肉眼可见的技术瑕疵,既没有假发的元素,还直接让主角自己戴上了太阳镜。我们继续在提示词上加些难度,比如多人场景,并且要求人物的心情不同。
提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。旁边有位女士正看着他笑。
海螺:
可灵:
:
令人惊喜的是,海螺巧妙地将另外一个人物虚化处理,区别前后景,并且两个人的表情也截然不同。尽管在佩戴假发和太阳镜动作处理上有些不自然,但总的来说控制住了多人物的场景。根据相同的提示词,可灵生成的画面有所欠缺,对于“女士”的表现只有隐约的长发,人物面部表情、动态效果处理都有所欠缺。再看,它无法生成两个人物截然不同的面部表情,要笑一起笑,要戴眼镜一起戴,颇有“荣辱与共”的生成使命感。另外,在人物镜头生成过程中,我们发现不同于生成名人形象会得到违反内容政策的提示,在这一方面限制较少,比如可以生成带点“老铁味”的马斯克。
文字类测试下来,海螺在英文文字输出方面也很成熟,并且还能一次性生成连续的镜头,改变画面的明亮程度。
提示词:镜头缓缓推近,一面昏暗的墙上有一个灯箱闪烁了几次,然后亮起文字“”,发出彩色的灯光,赛博朋克风格
生成文字向来可圈可点,在动态效果表现上优于海螺,但运镜转换上仍有提升空间。
可灵目前还无法做到文字类镜头生成,对于“昏暗”的理解到位,画面氛围感十足,但英文文字完全错误。
风景写实类
提示词:一只毛绒质感的小黄鸭,特写镜头展示了小黄鸭柔软的黄色羽毛和圆圆的眼睛。小黄鸭头顶大葱,在上海的黄浦江上游,翅膀灵动地拨动着水面。
A plush of a small duck,close-up shots show its soft and round eyes. duck with on its head, its wings on the water in the upper of the River in .
根据“AI新榜”此前多轮测试,大多数主流模型在风景写实类镜头上表现都比较稳定。这次挑战的海螺、可灵和在效果上也各有千秋。海螺:
可灵:
:
论真实性,没有什么能够比得过可灵。但可灵在地标建筑上稍有欠缺,背景并没有体现上海、黄浦江等关键元素。海螺对于光影和背景处理更胜一筹,但生成的小黄鸭更有塑料感,没有很好表现出提示词中的“毛绒感”,更像一只玩具鸭。生成的画面直接采用特写镜头,巧妙地解决了背景处理的问题。镜头运动镜头运动其实也涵盖了各个视频模型对于长文本的理解能力,我们投喂的提示词如下:
A close shot of a ocean with waves a small ship. A is from the of the sea, its form the water, of ocean mist into the air.
The ship, by the , tilts on the waves. , a lone man at the bow, the , in awe and at the him. The scene is lit with , .
广角镜头,一张暴风雨般的大海,巨浪拍打着一艘小船的戏剧性照片。一个巨大的生物正从深海中出现,它巨大的体型冲破水面,向空中喷射出海洋薄雾。那艘船在汹涌的波涛中摇摇欲坠,与那生物相比显得矮小。船上,一个孤独的人站在船头,紧紧抓住栏杆,敬畏而恐怖地盯着面前升起的怪物。现场充满了强烈的电影感。
整体生成效果上,只有海螺达到了“镜头运动”的效果,并且没有出现重影、崩坏等严重的画面瑕疵。前端开发佳心也在即刻平台分享,加上更多镜头描述,比如“镜头跟随(主体)”,画面会更具电影感。
只不过,提示词要素过多,导致最终的人物仅是一闪而过,如果分段进行生成,能达到更好的画面效果。可灵:
:
总的来说,海螺AI对于提示词的理解能力在线,生成的视频内容连贯性和可控性上把握得当。在微表情变化、运镜表现上更细节、更具优势,甚至能够很好刻画出人物的情绪转换。可以说,我们总希望的AI能有“人味儿”,先浅浅往前跨了一小步。大家可以再直观感受一下,海螺AI在“情绪表达”上的能力:
值得一提的是,我们在尝试过程中发现,不少使用英文提示词生成的画面,明显优于中文提示词生成的。比如,前文巨浪的画面使用中文的效果是:
还有同样是让婴儿开摩托车:
提示词:一个婴儿骑着摩托车下山,一对父母骑着摩托车跟在后面,下坡的电影动作场景,快节奏,高速动作。
A scene of a baby of a ,, on a . are him, on a . , high speed .
中文版:
英文版:
中文版完全没有办法理解“婴儿”这一词,但英文的“baby”就表现得很恰当。在中文提示词下,人物表情扭曲、画面崩坏的问题会更加明显,在真实感上会有所欠缺。在测试过程中,除了中英文提示词效果不同外,我们也遇到了其他问题,剩了不少废片。比如,它默认生成的欧美面孔偏多,缺少国风元素。和其他工具一样,如果追求高质量的画面,海螺AI就避免不了“抽卡”的环节。另外,海螺AI暂不支持并行生成多个视频,无法调整画面比例,这在一定程度上也限制了视频内容的再创作。不过,创始人闫俊杰在接受多家媒体采访时提前预告称,未来产品会迭代图生视频功能,增加视频可控制、可编辑等功能。未来几周内,还会发布从速度和效果上都对标GPT-4o的大模型abab 7。
国产大模型加速赶超,能否脱颖而出短短几个月,文生视频的竞争已然走向白热化。AI视频生成在画面流畅度、物理世界模拟、长文本理解等方面都有显著的提升,早已褪去切片式“动态PPT”的效果,转变成可使用的创作工具。且不说海外的、Luma、Pika,近半年内国内就出现了可灵、清影、Vidu等视频生成工具,一时让人抉择不出哪家效果最好。此前,“AI新榜”对10家国内外热门的AI视频生成工具进行过实测盘点,感兴趣的玩家可移步阅读。(相关阅读:《可灵制作短片惊艳马斯克,所以最好用的AI视频工具究竟是谁?》)结合我们此前的实测和玩家反馈,几家AI视频产品各有特色。就国内来看,可灵在国风元素、对物理世界理解上具有独特优势,所以生成画面更具备真实感;生数科技的Vidu生成耗时短;即梦是几家中综合性价比较高的一款工具。国外, Gen-3在长文本语义理解上跃升了新台阶;Luma Dream 在动幅和想象力上十分出色,因此网友大多用它来玩梗造梗。的海螺AI在人物细节和情绪表现上找到了自己的赛道。这一特点也让海螺AI吸引了海内外创作者对视频生成的又一轮创作热情。比如,博主“”用19个哭泣相关的提示词,让海螺AI生成了一组视频。
来源:视频号用户“”“Min Choi”的视频展现了多人物场景,该视频在X平台上获赞2.8万。
323AI导航网发布