4 月 3 日,第一次能够像处理文字一样,原生地“看”与“听”物理世界。

技术核心:DiNA 架构实现“模态内化”

为了打破模态间的隔阂,极致压缩: 采用 dNaViT 视觉分词器,支持任意分辨率输入,通过 8 层残差向量量化实现高达 28 倍的像素空间压缩,完整保留 OCR、财报解析等任务中的关键细节。

实证性能:离散建模没有“天花板

LongCat-Next在多个维度上展现了超越专用模型的性能,有力回击了“离散化必然损失信息”的传统观点:

  • 细粒度感知: 在 OmniDocBench 密集文本场景测试中,性能不仅超越 Qwen3-Omni,更优于专用视觉模型 Qwen3-VL。

  • 视觉推理: 在 MathVista 测试中达到 83.1 的领先水平,展现出强大的工业级逻辑能力。

  • 跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的并行文本语音生成及可定制的语音克隆。

行业观察:通往物理世界 AI 的基石

长期以来,大模型一直是以语言为中心的系统。而 LongCat-Next 的意义在于,它证明了物理信息可以被离散化并像语言一样被建模。当 AI 拥有了统一的“母语”,它在调用工具、编写代码以及理解复杂图表时会变得更加聪明和直观。

目前,美团已将LongCat-Next 模型dNaViT 分词器全部开源。这一小尺寸、高潜力的原生离散架构,将为开发者构建能感知并作用于真实世界的 AI 提供重要工具。


点赞(4)

评论列表共有 0 条评论

立即
投稿
返回
顶部