字节跳动发布Vidi2，称视频理解能力超越Gemini3 pro

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2，这是一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材，理解其中的故事脉络，并根据简单提示生成完整的TikTok短视频或电影片段，被视为对现有视频编辑行业的重大颠覆。

Vidi2的关键在于其视频理解能力。新模型新增了精细的空定位（STG）功能，能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询，Vidi2不仅能找到对应的时间段，还能在这些时间范围内准确标记出具体物体的位置。

在技术细节上的表现：

Vidi2在行业基准测试中表现卓越。在用于开放式时间检索的 VUE-TR-V2基准上，其总体 IoU 达到 48.75，尤其在**超长视频（超过1小时）**上的表现比商业模型领先 17.5个百分点。在定位任务（VUE-STG）上，模型也取得了vIoU32.57和tIoU53.19的最佳性能。

基于 Vidi2的强大能力，字节跳动已开发出多个实用的自动化编辑工具，包括:高光提取、故事感知剪切、内容感知重构图和多视角切换，且这些功能都可以在消费级硬件上运行。

AIbase 评论指出，Vidi2的发布和字节跳动巨大的 **TikTok（10亿日活用户）**数据平台优势，使其获得了海量视频数据进行训练和实时反馈优化，为原生的AI公司带来了巨大挑战。随着大平台公司的技术飞轮转动起来，传统AI公司可能面临更大的竞争压力。

目前 Vidi2仍处于研究阶段，官方表示 Demo 即将发布。

本篇文章为 @ 万能的大雄创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

04月15日

评论