
昆仑万维发布Matrix-Zero世界模型 多模态大模型“赛马”战况几何?

2月14日,昆仑万维(300418.SZ)正式推出Matrix-Zero世界模型,公司称,昆仑万维是我国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。
Matrix-Zero世界模型包含两款子模型,一是3D场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的3D场景,包括动态物理效果;二是可交互视频生成大模型,提供以用户输入为核心驱动的可交互空间智能视频生成方案,支持根据用户实时输入生成互动视频效果,具备更精准控制的Action model(动作行为模型)。
随着大模型技术的快速发展,3D场景生成和可交互视频生成技术正逐步渗透至游戏、影视、教育、房地产等多个行业,为传统模式带来革新,并催生新的商业模式。在游戏行业,3D场景生成大模型帮助开发者迅速构建多样化的游戏场景,而可交互视频生成大模型则增强了玩家的游戏参与度,提供了新颖的游戏体验。影视行业中,导演和编剧利用3D场景生成大模型加速虚拟场景的搭建,便于创意实现和拍摄,同时,可交互视频生成大模型使得影视作品能够包含观众互动元素,丰富了创作形式。教育行业通过大模型技术构建了沉浸式的虚拟教学环境,如历史重现和科学实验模拟,提高了学生的学习参与度,而可交互视频生成大模型则用于制作互动式教学视频。在房地产行业,设计师能够迅速将设计图纸转化为3D场景,便于客户直观了解房屋布局和空间效果,客户还能通过可交互视频提出反馈意见。
昆仑万维称,Matrix-Zero世界模型预计4月份上线,将对公司AI游戏生产、AI短剧生产和编辑等业务进一步赋能,为用户和开发者带来新的平台和工具。当视频模型发展到可以逼真模拟物理世界时,游戏可能不再需要传统的3D引擎,许多实验和模拟将可以在虚拟环境中进行,而影视创作也将变得更加普及,甚至成为每个人的基本技能。
事实上,“多模态”已经成为AI发展的新范式。所谓“多模态”,即AI能够处理文字、图片、音频和视频等多种数据形式,并通过构建对物理世界和生物化学世界的模型,将“多模态”信息进行融合、关联和协同处理,提供更自然直观的人机交互体验。
其中,最“吸睛”的莫过于DeepSeek,其最近推出在图像生成基准测试中超越Open AI“文生图”模型DALL-E3的多模态大模型Janus-Pro。Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点,识别图像中的文字,并能对图片中的知识进行介绍。
此外,2025年伊始,商汤科技(商汤-W,0022.HK)、当虹科技(688039.SH)、盛天网络(300494.SZ)等企业在多模态AI领域各显神通,凭借技术突破、场景落地与商业化推进,正引领行业迈向新的繁荣阶段,未来有望持续解锁更多应用可能,重塑产业格局。
商汤科技1月重磅推出“日日新”融合大模型SenseNova-5o,凭借原生融合文本、图像、音频、视频等多模态数据的优势,在跨模态推理与交互能力上实现质的飞跃,该模型已在多个前沿领域实现落地,从具身机器人的智能化操控、AI眼镜的交互升级,到教育场景的创新应用,多点开花。
当虹科技紧跟其后,2月宣布BlackEye多模态视听大模型完成重大升级,深度融合DeepSeek-R1和DeepSeekJanusPro,并针对影视制作、车载智能座舱、工业与卫星场景精准发力,完成细致的数据调优训练。依托自身在视频编码、渲染等核心技术的深厚积淀,进一步深挖多模态技术在视听传媒领域的应用潜能,为影视创作、智能交通、工业监测等行业提供一站式、更高效的解决方案,助力产业提质增效。
盛天网络则聚焦游戏与社交两大核心赛道,在2025年全力加速多模态AI的融合渗透。在游戏板块,多款接入DeepSeek模型的AI驱动游戏新鲜出炉,如兼具创意与趣味的《字灵契约》和《密语炸弹》,巧妙融合“抽卡+对战”等热门玩法,全方位提升用户互动体验。在社交领域中,旗下AI社交产品《带带》和音乐应用《给麦》积极整合多模态情感分析技术,打破语音、文本、图像的交互壁垒,实现无缝融合交互。此外,公司拟年内推出社交陪伴机器人,增强社交平台沉浸感和趣味性。
山西证券认为,随着AI视频生成工具持续迭代,未来其向多种应用场景的渗透有望加速。一方面,在应用层应重点关注创意、设计、教育等多模态特别是视频生成强相关的领域等;另一方面,视频生成模型对算力需求较文本显著提升,重点关注AI算力相关标的。