4月2日,智谱公司正式推出新一代多模态编程基础模型GLM-5V-Turbo。该模型旨在突破传统纯文本编程的限制,能够直接理解视觉信息并生成相应的可执行代码。
GLM-5V-Turbo模型可实现根据视觉素材生成代码
据悉,GLM-5V-Turbo在研发阶段即深度融合了视觉与文本处理能力。它能够识别设计图纸、软件界面截图、网页布局等多种图像内容,并据此自动编写出功能代码,实现了“所见即可编程”的效果。
该模型主要具备以下三项技术特点:
- 原生多模态理解: 可直接处理图片、视频、设计稿等非文本输入,支持多种视觉交互工具,其上下文处理能力得到大幅扩展。
- 能力均衡发展: 在视觉编程与图形界面自动化测试等多个核心评估中表现优异,同时确保了在纯文本编程和逻辑推理任务上的性能不受影响。
- 广泛场景适配: 深度优化了与主流开发环境及智能体场景的兼容性,能够完成从环境理解到任务执行的完整流程,并提供了丰富的官方功能模块供开发者直接调用。
模型在多类测试中均展现出领先性能
根据官方测试结果,GLM-5V-Turbo在设计稿还原、视觉代码生成等任务上处于领先地位。在多个图形用户界面自动化操控测试中,其表现突出,纯文本编程能力也保持稳定。
此外,在应用于智能体系统时,该模型为其增添了强大的视觉处理功能,在多项复杂任务评测中取得了优秀成绩,验证了其执行实际复杂项目的可行性。
目前,该技术已应用于多个实际场景,例如根据图像自动生成前端代码、实现图形界面的自主探索与复现,并能辅助完成金融图表分析、图文报告自动生成等任务。
开发者现可通过官方指定平台及应用程序接口体验或集成该功能,相关官方功能模块也已在其开发者社区正式上线。
(举报)
- 相关推荐
-
荐AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源
本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。
-
国产编程模型新王诞生!阿里Qwen3.6-Plus正式发布
阿里千问今天正式发布新一代大语言模型Qwen3.6-Plus,这也是当下编程能力最强的国产模型。 在核心能力上,千问3.6较上一代进步明显,在系列编程能力权威评测中,编程表现超越GLM-5、Kimi-K2.5等参数量达其2至3倍的国产模型,接近全球最强编程模型Claude系列水平。 在SWE-bench真实编程任务、Terminal-Bench2.0终端编程、NL2Repo长程编程任务,以及Claw-Eval、QwenClawBench等Agent能力评测中,
-
千问3.6正式发布:最强编程国产模型 接近Claude
今天,千问发布新一代大语言模型Qwen3.6-Plus。 千问3.6整体性能较3.5进步显著,具备极强的智能体编程能力,在系列编程能力权威评测中,千问3.6成为当下编程能力最强的国产模型,接近全球最强编程模型Claude系列。 在前端网页开发、仓库级复杂任务等实测场景中,千问3.6可自主拆解任务、规划路径、测试修改直至任务完成。 Qwen3.6-Plus展现出卓越的工程落地能力,不仅能实�
-
阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路
阿里巴巴今日正式发布Wan2.7-Video视频生成系列模型,涵盖文生视频、图生视频、参考生视频和视频编辑四大模型。 新模型拥有全面的创作控制力,将AI的能力从单一素材生成扩至创作全链路,从演”迈向导”。
-
首个龙虾增强大模型 智谱GLM-5-Turbo发布:套餐39元起
近期OpenClaw小龙虾火爆全球,智谱不仅推出了自己的AutoCalw澳龙软件,还发了一个适配龙虾的大模型Pony-Alpha-2,现在它正式以GLM-5-Turbo的名称问世。 GLM-5-Turbo号称全球首个专为龙虾场景深度优化的通用大模型,从训练阶段就针对龙虾任务的核心需求进行专项优化,增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力。 具体表现方面,智谱也针对龙虾使用环�
-
国内最强生图模型阿里Wan2.7-Image来了!千人千面 告别AI标准脸
阿里巴巴今日正式发布图像生成与编辑统一模型Wan2.7-Image,直击当前 AI 生图领域标准脸”审美疲劳和色彩盲盒”等痛点。 该模型可实现千人千面”,捏出活人感”,全新的调色盘”功能可精准控制色彩。 即日起,用户可在https://tongyi.aliyun.com/wan/、wan.video网站和阿里云百炼体验Wan2.7-Image,千问App也即将接入。 据介绍,Wan2.7-Image具备文生图、图生组图、图像指令编辑和交互式�
-
阿里云百炼上线三方视频生成模型,PixVerse首发登陆
全球领先的AI视频生成模型PixVerse V5.6正式登陆阿里云百炼平台,成为该平台首批引入的视频生成模型。此次合作标志着PixVerse从技术领先迈向规模化商业应用。模型支持文生视频、图文生视频等多种创作模式,并推出按需、按时长计费的灵活模式,大幅降低高质量视频创作门槛。同时,PixVerse V5.6在复杂运动场景的稳定性和“镜头语言”理解能力上显著提升,能生成更符合商业交付标准的内容。通过百炼平台,PixVerse将触达阿里云庞大的企业用户群,推动AI视频从“演示级能力”迈向“工业化生产”,在电商营销、泛娱乐内容、短剧创作等多个行业展现广泛应用价值。
-
荐AI日报:Luma AI发布Uni-1图像模型;阿里达摩院发布玄铁C950;美团龙猫发布开源数学定理证明模型
本期AI日报聚焦多项技术突破:Luma AI发布Uni-1图像模型,支持文本与像素同步生成;美团开源数学定理证明模型LongCat-Flash-Prover;阿里玄铁C950处理器刷新RISC-V性能纪录;iPhone 17 Pro成功本地运行4000亿参数大模型;Claude助手升级,可控制用户电脑;西湖大学发布全球首个机器人“通用小脑”泰坦o1;OpenAI申请将ChatGPT纳入安卓默认搜索引擎选项;国家数据局正式将“Token”定名为“词元”,规范大模型术语标准。
-
爱诗科技PixVerse V6 正式发布,AI视频生成迈向“真实世界模拟”
爱诗科技发布新一代视频生成模型PixVerse V6,在保持秒级生成速度基础上,全面升级人物真实感、复杂运动表现、物理模拟及声画协同能力,最长可生成15秒视频。该模型在AI视频生成榜单中位列全球第二,显示其领先水平。V6重点提升视频的真实世界模拟能力,优化人物细节表现,强化复杂场景处理,增强物理属性模拟,并优化镜头连续性。同时降低创作门槛,用户可通过简洁描述生成复杂镜头效果。目前PixVerse V6已在拍我AI Web端、App端及API平台上线,并推出限时优惠活动。
-
阿里发布新一代全模态大模型Qwen3.5-Omni
靠谱客(kaopuke.com)4月10日消息:今日,阿里巴巴正式推出了其新一代全模态大模型——千问Qwen3.5-Omni。这款大模型采用了先进的混合注意力MoE架构,能够轻松处理图片、视频、语音以及文字等多种模态内容的输入与输出,展现出强大的多模态处理能力。在多项测试中,Qwen3.5-Omni表现卓越,尤其在音视频理解、识别与交互等215项任务中,均取得了SOTA(性能最佳)的佳绩,成功�
今日大家都在搜的词:
- 人生重开模拟器
- 显卡天梯图
- 国内云服务器哪家好
- 高通骁龙处理器排名
- 手机CPU天梯图
- 单反相机天梯图
- 安兔兔手机跑分排行榜
- 笔记本电脑排行榜
发表评论取消回复