美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

2026-04-10 23:00 6 阅读 0 评论 4 点赞

4 月 3 日，第一次能够像处理文字一样，原生地“看”与“听”物理世界。

技术核心：DiNA 架构实现“模态内化”

为了打破模态间的隔阂，极致压缩：采用 dNaViT 视觉分词器，支持任意分辨率输入，通过 8 层残差向量量化实现高达 28 倍的像素空间压缩，完整保留 OCR、财报解析等任务中的关键细节。

实证性能：离散建模没有“天花板”

LongCat-Next在多个维度上展现了超越专用模型的性能，有力回击了“离散化必然损失信息”的传统观点：

细粒度感知： 在 OmniDocBench 密集文本场景测试中，性能不仅超越 Qwen3-Omni，更优于专用视觉模型 Qwen3-VL。
视觉推理： 在 MathVista 测试中达到 83.1 的领先水平，展现出强大的工业级逻辑能力。
跨模态协同： 在保持领先语言能力（C-Eval 86.80）的同时，支持低延迟的并行文本语音生成及可定制的语音克隆。

行业观察：通往物理世界 AI 的基石

长期以来，大模型一直是以语言为中心的系统。而 LongCat-Next 的意义在于，它证明了物理信息可以被离散化并像语言一样被建模。当 AI 拥有了统一的“母语”，它在调用工具、编写代码以及理解复杂图表时会变得更加聪明和直观。

目前，美团已将LongCat-Next 模型及dNaViT 分词器全部开源。这一小尺寸、高潜力的原生离散架构，将为开发者构建能感知并作用于真实世界的 AI 提供重要工具。

点赞(4)

本文分类：AI新闻资讯

相关文章

红熊 AI 完成 2.1 亿元 A 轮融资：投后估值突破 15 亿

红熊 AI 完成 2.1 亿元 A 轮融资：投后估值突破 15 亿

终于有白色了！米家三区洗衣机Pro滚筒10kg冰晶白上市：首发3994元

终于有白色了！米家三区洗衣机Pro滚筒10kg冰晶白上市：首发3994元

给儿子找的甜美儿媳竟是41岁大汉大爷网上为儿子找媳妇被骗18万

给儿子找的甜美儿媳竟是41岁大汉大爷网上为儿子找媳妇被骗18万

网友拍下地震地鸣声：像重型机车驶过狗都跟着吠起来

网友拍下地震地鸣声：像重型机车驶过狗都跟着吠起来

美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

美国职场新词 “FOBO”：AI带来职场人对被淘汰的恐惧加剧

美国职场新词 “FOBO”：AI带来职场人对被淘汰的恐惧加剧

老人酒后泡澡死亡浴池被判担责两成法院：没履行巡查义务

老人酒后泡澡死亡浴池被判担责两成法院：没履行巡查义务

老旗舰集体复活！小米8折换电池来了：支持77款机型 47.2元起小米启动四月服务周多项设备保养优惠上线

老旗舰集体复活！小米8折换电池来了：支持77款机型 47.2元起小米启动四月服务周多项设备保养优惠上线

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部