自 9 月 1 日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本,获得了开发者的关注。今天 LongCat-Flash 系列再升级,正式发布全新家族成员——LongCat-Flash-Omni。
LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。
综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。
模型已同步开源,欢迎开发者体验:
LongCat-Flash-Omni 是一款拥有极致性能的开源全模态模型,在一体化框架中整合了离线多模态理解与实时音视频交互能力。该模型采用完全端到端的设计,以视觉与音频编码器作为多模态感知器,由 LLM 直接处理输入并生成文本与语音 token,再通过轻量级音频解码器重建为自然语音波形,实现低延迟的实时交互。
所有模块均基于高效流式推理设计,视觉编码器、音频编解码器均为轻量级组件,参数量均约为 6 亿,延续了 LongCat-Flash 系列的创新型高效架构设计,实现了性能与推理效率间的最优平衡。
LongCat-Flash-Omni 模型架构
LongCat-Flash-Omni 突破 “大参数规模与低延迟交互难以兼顾” 的瓶颈,在大规模架构基础上实现高效实时音视频交互。该模型总参数达 5600 亿(激活参数 270 亿),却依托 LongCat-Flash 系列创新的 ScMoE 架构(含零计算专家)作为 LLM 骨干,结合高效多模态编解码器和“分块式音视频特征交织机制”,最终实现低延迟、高质量的音视频处理与流式语音生成。模型支持 128K tokens 上下文窗口及超 8 分钟音视频交互,在多模态长时记忆、多轮对话、时序推理等能力上具备显著优势。
全模态模型训练的核心挑战之一是 “不同模态的数据分布存在显著异质性”,LongCat-Flash-Omni 采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。
经过全面的综合评估显示:LongCat-Flash-Omni 不仅在综合性的全模态基准测试(如 Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA),其在文本、图像、音频、视频等各项模态的能力均位居开源模型前列,真正实现了“全模态不降智”。
LongCat-Flash-Omni 的基准测试性能
你可以通过 https://longcat.ai/ 体验图片、文件上传和语音通话功能。
另外,我们非常激动的告诉大家,LongCat 官方 App 现已正式发布,支持联网搜索,还可以发起语音通话(视频通话功能敬请期待)。您可以通过扫描下方二维码下载使用,iOS 用户可直接在 APP Store 中搜索 LongCat 获取。
LongCat-Flash-Omni 在开源平台已上线,欢迎各位开发者们探索和使用:
作者:美团技术团队
本篇文章为 @ 美团技术团队 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。