TikTok 的母公司刚刚重置了人工智能视频生成格局。
Google Veo 3是谷歌最近发布的一款令人印象深刻的视频生成模型,在互联网上引起了广泛关注。它的功能让许多人惊叹不已,甚至有人称其“惊艳”。该模型配备了音频合成和电影制作工具,为 AI 视频生成树立了新的标杆。
当科技界欢庆谷歌 Veo 3 发布之际,字节跳动悄然发布了一款或许更胜一筹的产品。TikTok 的母公司最近发布了Seedance 1.0的研究论文,这是一个双语视频生成模型,目前在文本转视频和图像转视频生成领域的独立排行榜上均名列前茅。
字节跳动并未举办任何活动或演示,而是凭借其技术基准测试,在不进行任何大规模营销的情况下,迅速成为众人焦点。该模型旨在支持高分辨率、多样本生成,同时保持快速推理和严格遵循指令。
该公司在研究论文中介绍了这项技术,它指出:“我们利用交错多模态位置编码将空间层和时间层分离。这使得我们的模型能够在单个模型中同时学习文本到视频和图像到视频,并且原生支持多镜头视频生成。”
这种方法使人工智能模型能够支持复杂的场景转换和具有一致主题表现的多镜头叙事。
该模型的性能很大程度上得益于字节跳动的数据流水线。
该团队精心策划了一个大规模、多源的数据集,其中包含详细的双语字幕以及对运动和静态特征的密集注释。为了提高生成过程中的快速一致性,字幕准确性被放在了首位。此外,我们还设计了一个新颖的强化学习设置,该设置采用了三个奖励模型,分别关注基础对齐、运动质量和美观度。
在综合评估中,Seedance 1.0 在多个维度上的表现均优于 Veo 3。在与电影导演合作设计的 SeedVideoBench 基准测试中,该模型在提示跟随和运动真实感方面表现出更高的得分。
值得注意的是,研究论文称,在图像到视频任务中,Seedance 保留了与输入帧更多的视觉一致性,而 Veo 3 偶尔会出现光线和纹理的变化。
推理性能是另一个值得关注的方面。在速度方面,Seedance 1.0 遥遥领先于其他产品。该公司声称,它在单个 NVIDIA-L20 上仅需 41.4 秒即可生成一段 5 秒的 1080p 视频,推理时间比 Sora、Runway Gen-4 以及 Veo 3 等竞争对手快一个数量级。
字节跳动还提到,它大幅降低了成本和延迟,从而可以将视频生成推向实时用例。
此外,该人工智能模型在文本转视频和图像转视频生成任务的人工智能分析排行榜上均名列前茅。
Veo 3 仍然是一个技术雄心勃勃的系统。它引入了音频感知视频合成功能,并通过其 Flow 工具为用户提供了对摄像机运动和镜头构图的控制。早期用户的反应凸显了其同步对话和动态环境的创新性,使其处于视听生成的前沿。
然而,在直接比较中,Veo 3 似乎在视觉对齐和帧一致性方面有所欠缺。
Seedance 1.0研究论文指出,Veo 的图像转视频结果有时会改变拍摄对象的外观或场景的光照,从而影响其整体效果。虽然 Veo 成功扩展了生成视频的模式,但其在传统基准测试中的表现却落后。
相比之下,Seedance 1.0 专注于视觉连贯性和运动真实性,结构化强化学习和精选微调数据发挥着关键作用。其优势在于可靠性和可控性,尤其适用于多镜头或长时序列,这些场景对于专业或半自动化内容创作至关重要。
Seedance 1.0 计划于 2025 年 6 月与豆宝和集萌等平台集成,并有望成为一款重要的生产力工具。其目标是显著改善专业工作流程和常规创意任务。
虽然 Veo 3 因首次将逼真的视频与环境声音和对话相结合而受到关注,但 Seedance 1.0 实现了更好的视觉保真度、运动稳定性和叙事连贯性,但缺乏音频功能。
作者:场长
本文为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。