+8613426109659
webmaster@21cto.com

字节跳动发布Vidi2,称视频理解能力超越Gemini3 pro

资讯 1 10 16小时前

字节跳动刚刚发布了其最新多模态大语言模型 Vidi2,这是一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材,理解其中的故事脉络,并根据简单提示生成完整的TikTok短视频或电影片段,被视为对现有视频编辑行业的重大颠覆。

突破:精细时空定位(STG)

Vidi2的关键在于其视频理解能力。新模型新增了精细的空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询,Vidi2不仅能找到对应的时间段,还能在这些时间范围内准确标记出具体物体的位置。

在技术细节上的表现:

  • 时空定位:模型返回“管道”(时间索引边界框),以一秒粒度跟踪指定对象和人物,直接支持编辑,例如在人群中跟踪特定人物。

  • 技术架构:Vidi2升级使用 Gemma-3 作为主干网络,并辅以重新设计的自适应标记压缩技术,确保在处理长视频时保持效率而不丢失关键细节。

性能领跑:超长视频理解优势明显

Vidi2在行业基准测试中表现卓越。在用于开放式时间检索的 VUE-TR-V2基准上,其总体 IoU 达到 48.75,尤其在**超长视频(超过1小时)**上的表现比商业模型领先 17.5个百分点。在定位任务(VUE-STG)上,模型也取得了vIoU32.57和tIoU53.19的最佳性能。



从模型到产品:TikTok的“智能剪辑师”

基于 Vidi2的强大能力,字节跳动已开发出多个实用的自动化编辑工具,包括:高光提取、故事感知剪切、内容感知重构图和多视角切换,且这些功能都可以在消费级硬件上运行。

  • TikTok应用:相关技术已应用于 TikTok的Smart Split 功能,能够自动剪辑、重构图、添加字幕,并将长视频转录成适合TikTok的短片段。

  • AI Outline:该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。

AIbase 评论指出,Vidi2的发布和字节跳动巨大的 **TikTok(10亿日活用户)**数据平台优势,使其获得了海量视频数据进行训练和实时反馈优化,为原生的AI公司带来了巨大挑战。随着大平台公司的技术飞轮转动起来,传统AI公司可能面临更大的竞争压力。

目前 Vidi2仍处于研究阶段,官方表示 Demo 即将发布。

地址:https://www.alphaxiv.org/abs/2511.19529

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。