字节Seedance 2.0实测：语音错乱、字幕乱码，AI视频仍是概率游戏

显示全部楼层 · 发表于 6 小时前

文章开始之前，先给大伙看个动图吧。

（图源：哔哩哔哩）
很酷炫的大片场景对吧，材质和氛围都很到位。
但如果我告诉你，这片子是纯AI生成的呢？我想应该会有不少读者感到惊讶，或是试图回去从片段里找到穿帮的地方吧。
这些年，技术的飞速发展，让我们已经开始分不清特效和AI之间的区别，制作自己喜欢的视频，似乎从来没有这么简单过。
但估计大多数人跟我一样，都是光看不练，或者说练过，但从入门到入土。
原因就一句话：这玩意太容易劝退了。
想要完成度高一点，就得自己部署个模型，在ComfyUI上搞点稳定可控的工作流。但那一堆密密麻麻的参数，就连我这个鼓捣AIGC好些年的老手都还在摸索，只能说普通人大概率是调不明白的。
想随便玩玩的，倒是可以试试Sora和Veo，就是这些网站不仅价格不低，而且效果相当于抽卡，每抽一发就要花钱，国内的大伙也很难用上。
谁能想到，在大伙被折磨了许久后，国内的字节跳动却悄悄憋了个大招。

（图源：即梦）
就在这个星期，字节跳动旗下的视频模型Seedance 2.0突然上线。没有漫长的排队申请，也没有遮遮掩掩的内测邀请，它在春节这个年度最大流量窗口，就这么直接扔给了大众。
用完后我只想说，想自己搓AI视频的朋友们，好日子来了。
生成15秒，排队一小时
先说怎么用上。
Seedance 2.0目前已经在即梦平台上线，目前会员用户（至少69元）可以直接使用最新模型，电脑web版、手机APP都能用，预计过几天会全量开放。
如果不想充钱，也可以用字节旗下的小云雀，目前登录新用户赠送三次Seedance 2.0免费生成机会，同时每天赠送120积分。
用完免费机会后，用Seedance 2.0生成视频每秒耗费8积分，也就是每天最多免费生成15秒视频内容，拿来尝鲜倒是没什么问题。

（图源：雷科技）
再看能力层面。
大伙都知道，以前国内大部分视频模型只能演默片，就连字节这边，也是到了去年年底的Seedance 1.5版本才加上配音的。
而现在，Seedance 2.0的声音和画面已经配合得出神入化了。
这套全新的模型，在生成视频的同时可以生成匹配的音效和配乐，并且支持口型同步和情绪匹配，确保角色说话的时候，嘴型是对的，表情和语气也能对上。
为了验证它的本事，我输入了一段简单的提示词：第一人称视角，坐在老式绿皮火车的窗边，看着窗外飞驰而过的田野，桌上的玻璃杯微微震动。
或许是因为想体验的人太多，我居然排了一个多小时的队，才等到视频生成完毕。

（图源：雷科技，用Seedance 2.0制作）
说实话，这个画面精细度并不让我意外，真正让我有点起鸡皮疙瘩的是声音。视频里不仅有柔和的BGM，还有火车压过铁轨那种特有的“况且况且”的低频节奏声，甚至当镜头扫过桌上的玻璃杯时，杯子里的水因为震动泛起的波澜都清晰可见。
看着窗外的田野和西下的斜阳，真的很难想象这一切都不曾存在过。
这种“原生音效”的体验，和后期硬贴上去的配音确实是两个不同的概念。它说明AI不仅仅是在画画，它理解了画面里发生了什么，并且知道在这个场景下，环境里应该发出什么声音。
这就有点意思了。
但这还不够，光有声音还不行，视频还得稳。
以前用AI做视频，最怕的就是人物“整容”。前一秒主角还是个欧美硬汉，头一转就变成了日系小鲜肉，这种问题在动作幅度大的场景里尤为明显。
为了测试Seedance 2.0的一致性，我特意加大了难度，生成了一段“雨夜巷战，两个武术家在积水中激烈搏斗”的视频。
至于视频主题嘛，就叫Goat VS Goat吧。

（图源：雷科技，用Seedance 2.0制作）
结果相当令人惊喜。在长达十几秒的打斗镜头里，两位角色的脸部特征居然锁住了。哪怕是他在飞身踢腿、双方换位的时候，衣服的纹理和五官的轮廓都没有发生崩坏。
虽然在某些极度模糊的运动帧里还是能看到一点涂抹感，但相比于上一代模型那种每三秒换张脸的鬼畜效果，这已经是质的飞跃了。
可以说，在基础素质这一块，Seedance 2.0已经是一个高度能用的工具了。
从文案到成片一人跑通，但语音错乱与画面乱码依旧存在
基础测试稳住了，接下来咱们得上点强度。
毕竟对于大多数想做自媒体的朋友来说，我们不仅希望AI能画得像，更希望它能懂我们的脑洞。
为此，Seedance 2.0这次引入了一个叫自分镜和自运镜的概念。
简单说，就是它可以根据你的描述自动规划分镜和运镜，只需要告诉它需求是什么，它自己就可以决定怎么拍。
小雷试着输入了一句很简单的指令：一个穿着运动鞋的人在松软的沙滩上用力奔跑，夕阳西下。
这句话的难点，不仅在分镜上，更在于对物理世界的理解。
因为沙子是流体，脚踩下去会陷落，抬起来会带起沙粒，这些都是以前视频生成很难还原出来的细节。

（图源：雷科技，用Seedance 2.0制作）
在生成的视频里，我确实看到了脚掌陷入沙地的凹陷感，每一次蹬地都有沙粒向后飞溅，而且飞溅的抛物线很自然，没有出现那种沙子浮在空中的反重力现象，甚至连小腿肌肉随着跑步节奏的摆动，都带有明显的颤动感。
说实话，看到这个结果的时候我脑子里闪过一个念头：这个效果，已经可以直接放到短视频里用了。
按照这个效果，我能不能直接用工作流，制作出一段60秒的Brain Rot短视频？
于是乎，我先找来了字节的另一个AI助手豆包，先让它根据我的需求，生成大致的九宫格视频分镜，然后就是生成一段非常标准的“选择红门还是蓝门”的Brain Rot短视频文案。

（图源：雷科技）
吐槽一下，目前豆包对分格图片的理解依然不是很好，这一点就耗了我不少时间。
接着，我把分镜和剧本扔给了Seedance 2.0。
尽管Seedance 2.0目前最长支持15s的视频，但是通过多模态输入，我们可以把上一个视频的末尾作为素材输入下一个视频的需求，以此完成多个镜头衔接和角色一致性的维持，最后再进行人工剪辑拼接。
整个流程下来，做这一段内容，耗费我了半天的时间。

（图源：雷科技，用Seedance 2.0制作）
怎么说呢，尽管Seedance 2.0的中文生成水平远超国外竞品，但是在实际生成的内容里，依然会出现字幕和语音对不上的现象，画面之中的文本乱码更是客观存在的，而且几乎无法避免。
因为目前有最多15s的限制，所以只要我准备的文本内容多一些，成品的语音就会以非常不自然的高语速把整段文本读出来。
而且啊，我这次生成的视频也就相对长一点，但是你可以明显注意到Seedance 2.0对于开门这个动作的处理总是奇奇怪怪的，哪怕我把免费额度都用完了，但也没有生成更好的效果，只得作罢。
至于抽卡的问题嘛...至少对于目前的视频生成应用来说都是不可避免的。
总结
在我看来，Seedance 2.0的出现，算是给国内的创作者打了一针强心剂。
不可否认，从纯粹的技术指标或者内容产出来看，Sora在超长镜头的连贯性和画面的艺术感上可能依然是行业标杆。

（图源：Sora）
但在科技圈，有一个很朴素的道理：好用的技术，首先得是能用到的技术。
就目前来说，Seedance 2.0几乎没有使用门槛，人人都能轻松注册使用，价格相比同类竞品甚至还挺有性价比的。
知名自媒体博主“影视飓风”Tim也在今天盛赞了Seedance2.0模型的生成结果，他认为模型生成视频的精细程度、摄像机的运动情况、分镜连续性效果以及音画的匹配度都很出色，称其为“改变视频行业的AI”。
从某种意义上来说，影像行业从业者的看法，比自媒体的评价和大模型榜单的跑分要重要得多。
我敢打赌，在未来半年内，大家会在抖音、视频号里刷到大量由Seedance 2.0生成的短剧、悬疑解说甚至是带货视频。那些不需要复杂演技、主打视觉奇观或者剧情反转的内容，将是第一波被AI彻底改造的领域。
你敢相信，从来没有任何美术经验、动画经验，乃至视频经验的我，也能做出这样流畅的角色动画吗？

（图源：雷科技，用Seedance 2.0制作）
当然，它还是有缺点的。
比如目前的算力成本依然很高，普通用户如果不大规模氪金，生成速度可能会让他们等到花儿都谢了，而且这种抽卡式的创作逻辑，注定了它还不能完全替代那种需要精确控制的传统影视制作。