昆仑万维发布Matrix-Zero世界模型多模态大模型“赛马”战况几何?

访客 2025-02-14 18:44:08 47354

默认

2月14日，昆仑万维（300418.SZ）正式推出Matrix-Zero世界模型，公司称，昆仑万维是我国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。

Matrix-Zero世界模型包含两款子模型，一是3D场景生成大模型，支持将用户输入的图片转化为可自由探索的真实合理的3D场景，包括动态物理效果；二是可交互视频生成大模型，提供以用户输入为核心驱动的可交互空间智能视频生成方案，支持根据用户实时输入生成互动视频效果，具备更精准控制的Action model（动作行为模型）。

随着大模型技术的快速发展，3D场景生成和可交互视频生成技术正逐步渗透至游戏、影视、教育、房地产等多个行业，为传统模式带来革新，并催生新的商业模式。在游戏行业，3D场景生成大模型帮助开发者迅速构建多样化的游戏场景，而可交互视频生成大模型则增强了玩家的游戏参与度，提供了新颖的游戏体验。影视行业中，导演和编剧利用3D场景生成大模型加速虚拟场景的搭建，便于创意实现和拍摄，同时，可交互视频生成大模型使得影视作品能够包含观众互动元素，丰富了创作形式。教育行业通过大模型技术构建了沉浸式的虚拟教学环境，如历史重现和科学实验模拟，提高了学生的学习参与度，而可交互视频生成大模型则用于制作互动式教学视频。在房地产行业，设计师能够迅速将设计图纸转化为3D场景，便于客户直观了解房屋布局和空间效果，客户还能通过可交互视频提出反馈意见。

昆仑万维称，Matrix-Zero世界模型预计4月份上线，将对公司AI游戏生产、AI短剧生产和编辑等业务进一步赋能，为用户和开发者带来新的平台和工具。当视频模型发展到可以逼真模拟物理世界时，游戏可能不再需要传统的3D引擎，许多实验和模拟将可以在虚拟环境中进行，而影视创作也将变得更加普及，甚至成为每个人的基本技能。

事实上，“多模态”已经成为AI发展的新范式。所谓“多模态”，即AI能够处理文字、图片、音频和视频等多种数据形式，并通过构建对物理世界和生物化学世界的模型，将“多模态”信息进行融合、关联和协同处理，提供更自然直观的人机交互体验。

其中，最“吸睛”的莫过于DeepSeek，其最近推出在图像生成基准测试中超越Open AI“文生图”模型DALL-E3的多模态大模型Janus-Pro。Janus-Pro不仅可以“文生图”，同样也能对图片进行描述，识别地标景点，识别图像中的文字，并能对图片中的知识进行介绍。

此外，2025年伊始，商汤科技（商汤－W，0022.HK）、当虹科技（688039.SH）、盛天网络（300494.SZ）等企业在多模态AI领域各显神通，凭借技术突破、场景落地与商业化推进，正引领行业迈向新的繁荣阶段，未来有望持续解锁更多应用可能，重塑产业格局。

商汤科技1月重磅推出“日日新”融合大模型SenseNova-5o，凭借原生融合文本、图像、音频、视频等多模态数据的优势，在跨模态推理与交互能力上实现质的飞跃，该模型已在多个前沿领域实现落地，从具身机器人的智能化操控、AI眼镜的交互升级，到教育场景的创新应用，多点开花。

当虹科技紧跟其后，2月宣布BlackEye多模态视听大模型完成重大升级，深度融合DeepSeek-R1和DeepSeekJanusPro，并针对影视制作、车载智能座舱、工业与卫星场景精准发力，完成细致的数据调优训练。依托自身在视频编码、渲染等核心技术的深厚积淀，进一步深挖多模态技术在视听传媒领域的应用潜能，为影视创作、智能交通、工业监测等行业提供一站式、更高效的解决方案，助力产业提质增效。

盛天网络则聚焦游戏与社交两大核心赛道，在2025年全力加速多模态AI的融合渗透。在游戏板块，多款接入DeepSeek模型的AI驱动游戏新鲜出炉，如兼具创意与趣味的《字灵契约》和《密语炸弹》，巧妙融合“抽卡+对战”等热门玩法，全方位提升用户互动体验。在社交领域中，旗下AI社交产品《带带》和音乐应用《给麦》积极整合多模态情感分析技术，打破语音、文本、图像的交互壁垒，实现无缝融合交互。此外，公司拟年内推出社交陪伴机器人，增强社交平台沉浸感和趣味性。

山西证券认为，随着AI视频生成工具持续迭代，未来其向多种应用场景的渗透有望加速。一方面，在应用层应重点关注创意、设计、教育等多模态特别是视频生成强相关的领域等;另一方面，视频生成模型对算力需求较文本显著提升，重点关注AI算力相关标的。

标签：模型视频