字节Seedance 2.0实测:语音错乱、字幕乱码,AI视频仍是概率游戏

发表于 6 小时前 | 显示全部楼层 |阅读模式
65 0
文章开始之前,先给大伙看个动图吧。
OrjJI85rr5Ow9ROX.jpg


(图源:哔哩哔哩)
很酷炫的大片场景对吧,材质和氛围都很到位。
但如果我告诉你,这片子是纯AI生成的呢?我想应该会有不少读者感到惊讶,或是试图回去从片段里找到穿帮的地方吧。
这些年,技术的飞速发展,让我们已经开始分不清特效和AI之间的区别,制作自己喜欢的视频,似乎从来没有这么简单过。
但估计大多数人跟我一样,都是光看不练,或者说练过,但从入门到入土。
原因就一句话:这玩意太容易劝退了。
想要完成度高一点,就得自己部署个模型,在ComfyUI上搞点稳定可控的工作流。但那一堆密密麻麻的参数,就连我这个鼓捣AIGC好些年的老手都还在摸索,只能说普通人大概率是调不明白的。
想随便玩玩的,倒是可以试试Sora和Veo,就是这些网站不仅价格不低,而且效果相当于抽卡,每抽一发就要花钱,国内的大伙也很难用上。
谁能想到,在大伙被折磨了许久后,国内的字节跳动却悄悄憋了个大招。
za49x9O5EhWFeof4.jpg


(图源:即梦)
就在这个星期,字节跳动旗下的视频模型Seedance 2.0突然上线。没有漫长的排队申请,也没有遮遮掩掩的内测邀请,它在春节这个年度最大流量窗口,就这么直接扔给了大众。
用完后我只想说,想自己搓AI视频的朋友们,好日子来了。
生成15秒,排队一小时
先说怎么用上。
Seedance 2.0目前已经在即梦平台上线,目前会员用户(至少69元)可以直接使用最新模型,电脑web版、手机APP都能用,预计过几天会全量开放。
如果不想充钱,也可以用字节旗下的小云雀,目前登录新用户赠送三次Seedance 2.0免费生成机会,同时每天赠送120积分。
用完免费机会后,用Seedance 2.0生成视频每秒耗费8积分,也就是每天最多免费生成15秒视频内容,拿来尝鲜倒是没什么问题。
Q8Qqg8oR0Lu0rt8U.jpg


(图源:雷科技)
再看能力层面。
大伙都知道,以前国内大部分视频模型只能演默片,就连字节这边,也是到了去年年底的Seedance 1.5版本才加上配音的。
而现在,Seedance 2.0的声音和画面已经配合得出神入化了。
这套全新的模型,在生成视频的同时可以生成匹配的音效和配乐,并且支持口型同步和情绪匹配,确保角色说话的时候,嘴型是对的,表情和语气也能对上。
为了验证它的本事,我输入了一段简单的提示词:第一人称视角,坐在老式绿皮火车的窗边,看着窗外飞驰而过的田野,桌上的玻璃杯微微震动。
或许是因为想体验的人太多,我居然排了一个多小时的队,才等到视频生成完毕。
g27WZH5llzW0JjjW.jpg


(图源:雷科技,用Seedance 2.0制作)
说实话,这个画面精细度并不让我意外,真正让我有点起鸡皮疙瘩的是声音。视频里不仅有柔和的BGM,还有火车压过铁轨那种特有的“况且况且”的低频节奏声,甚至当镜头扫过桌上的玻璃杯时,杯子里的水因为震动泛起的波澜都清晰可见。
看着窗外的田野和西下的斜阳,真的很难想象这一切都不曾存在过。
这种“原生音效”的体验,和后期硬贴上去的配音确实是两个不同的概念。它说明AI不仅仅是在画画,它理解了画面里发生了什么,并且知道在这个场景下,环境里应该发出什么声音。
这就有点意思了。
但这还不够,光有声音还不行,视频还得稳。
以前用AI做视频,最怕的就是人物“整容”。前一秒主角还是个欧美硬汉,头一转就变成了日系小鲜肉,这种问题在动作幅度大的场景里尤为明显。
为了测试Seedance 2.0的一致性,我特意加大了难度,生成了一段“雨夜巷战,两个武术家在积水中激烈搏斗”的视频。
至于视频主题嘛,就叫Goat VS Goat吧。
kaJQ13OFkAp88of1.jpg


(图源:雷科技,用Seedance 2.0制作)
结果相当令人惊喜。在长达十几秒的打斗镜头里,两位角色的脸部特征居然锁住了。哪怕是他在飞身踢腿、双方换位的时候,衣服的纹理和五官的轮廓都没有发生崩坏。
虽然在某些极度模糊的运动帧里还是能看到一点涂抹感,但相比于上一代模型那种每三秒换张脸的鬼畜效果,这已经是质的飞跃了。
可以说,在基础素质这一块,Seedance 2.0已经是一个高度能用的工具了。
从文案到成片一人跑通,但语音错乱与画面乱码依旧存在
基础测试稳住了,接下来咱们得上点强度。
毕竟对于大多数想做自媒体的朋友来说,我们不仅希望AI能画得像,更希望它能懂我们的脑洞。
为此,Seedance 2.0这次引入了一个叫分镜和自运镜的概念。
简单说,就是它可以根据你的描述自动规划分镜和运镜,只需要告诉它需求是什么,它自己就可以决定怎么拍。
小雷试着输入了一句很简单的指令:一个穿着运动鞋的人在松软的沙滩上用力奔跑,夕阳西下。
这句话的难点,不仅在分镜上,更在于对物理世界的理解。
因为沙子是流体,脚踩下去会陷落,抬起来会带起沙粒,这些都是以前视频生成很难还原出来的细节。
Hgd1FGX1z6jIzbkB.jpg


(图源:雷科技,用Seedance 2.0制作)
在生成的视频里,我确实看到了脚掌陷入沙地的凹陷感,每一次蹬地都有沙粒向后飞溅,而且飞溅的抛物线很自然,没有出现那种沙子浮在空中的反重力现象,甚至连小腿肌肉随着跑步节奏的摆动,都带有明显的颤动感。
说实话,看到这个结果的时候我脑子里闪过一个念头:这个效果,已经可以直接放到短视频里用了
按照这个效果,我能不能直接用工作流,制作出一段60秒的Brain Rot短视频?
于是乎,我先找来了字节的另一个AI助手豆包,先让它根据我的需求,生成大致的九宫格视频分镜,然后就是生成一段非常标准的“选择红门还是蓝门”的Brain Rot短视频文案。
TfGO5gOjHOGjB5D3.jpg


(图源:雷科技)
吐槽一下,目前豆包对分格图片的理解依然不是很好,这一点就耗了我不少时间。
接着,我把分镜和剧本扔给了Seedance 2.0。
尽管Seedance 2.0目前最长支持15s的视频,但是通过多模态输入,我们可以把上一个视频的末尾作为素材输入下一个视频的需求,以此完成多个镜头衔接和角色一致性的维持,最后再进行人工剪辑拼接。
整个流程下来,做这一段内容,耗费我了半天的时间。
wkO6n1YT1Fo22f2y.jpg


(图源:雷科技,用Seedance 2.0制作)
怎么说呢,尽管Seedance 2.0的中文生成水平远超国外竞品,但是在实际生成的内容里,依然会出现字幕和语音对不上的现象,画面之中的文本乱码更是客观存在的,而且几乎无法避免。
因为目前有最多15s的限制,所以只要我准备的文本内容多一些,成品的语音就会以非常不自然的高语速把整段文本读出来。
而且啊,我这次生成的视频也就相对长一点,但是你可以明显注意到Seedance 2.0对于开门这个动作的处理总是奇奇怪怪的,哪怕我把免费额度都用完了,但也没有生成更好的效果,只得作罢。
至于抽卡的问题嘛...至少对于目前的视频生成应用来说都是不可避免的。
总结
在我看来,Seedance 2.0的出现,算是给国内的创作者打了一针强心剂。
不可否认,从纯粹的技术指标或者内容产出来看,Sora在超长镜头的连贯性和画面的艺术感上可能依然是行业标杆。
LRr1OM5oX9z17JO6.jpg


(图源:Sora)
但在科技圈,有一个很朴素的道理:好用的技术,首先得是能用到的技术。
就目前来说,Seedance 2.0几乎没有使用门槛,人人都能轻松注册使用,价格相比同类竞品甚至还挺有性价比的。
知名自媒体博主“影视飓风”Tim也在今天盛赞了Seedance2.0模型的生成结果,他认为模型生成视频的精细程度、摄像机的运动情况、分镜连续性效果以及音画的匹配度都很出色,称其为“改变视频行业的AI”。
从某种意义上来说,影像行业从业者的看法,比自媒体的评价和大模型榜单的跑分要重要得多。
我敢打赌,在未来半年内,大家会在抖音、视频号里刷到大量由Seedance 2.0生成的短剧、悬疑解说甚至是带货视频。那些不需要复杂演技、主打视觉奇观或者剧情反转的内容,将是第一波被AI彻底改造的领域。
你敢相信,从来没有任何美术经验、动画经验,乃至视频经验的我,也能做出这样流畅的角色动画吗?
B177Eo7jbZk81dOk.jpg


(图源:雷科技,用Seedance 2.0制作)
当然,它还是有缺点的。
比如目前的算力成本依然很高,普通用户如果不大规模氪金,生成速度可能会让他们等到花儿都谢了,而且这种抽卡式的创作逻辑,注定了它还不能完全替代那种需要精确控制的传统影视制作。
全部评论

暂无评论,期待您打破宁静

您需要登录后才可以回帖 登录 | 立即注册
发表评论
发布 联系QQ