你最近的社交媒体,大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。
Sora 的病毒式传播,证明了 AI 生成内容的一条黄金法则:人类最着迷的,永远是人类自己。这些影像之所以能迅速成为一种赛博奇观,超越以往所有 AI 视频的传播力,正是因为它第一次高质量地将创作主体从风景、动物,聚焦到了人类自身。
但热潮过后,一个更现实的问题浮出水面:Sora 生成的数字人无论多么逼真,本质上仍是活在预设脚本里的「演员」。它们是内容生成的终点,却无法成为实时交流的起点。在这种「文生视频」的范式下,AI 被困在一次性的创作流程中,这与一个能随时响应、无处不在的智能伙伴相去甚远。
那为什么一个能随时响应的AI数字人,至今仍未普及?
主要原因就是成本。
而这一矛盾,正是下一轮技术演进的发力点。
10 月 29 日,魔珐科技,正式发布了 3D 数字人开放平台「星云」。其核心,就是将过去属于大企业预算的「项目制」奢侈品,转变为所有开发者都能通过 SDK 快速集成的基础能力。
魔珐科技之前就是 3D 数字人的领先提供商之一,深知许多企业在听到高昂的部署价格后只能望而却步。而他们近期的技术突破,正是对这一核心痛点的精准打击:通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖。这使得生成的数字人不仅保证了高质量,还能在百元级芯片上流畅运行。
当一个高质量、可交互的 3D 数字人大幅降低了运行成本,其意义远超技术本身。这意味着,AI 终于获得了入住每一块屏幕的入场券。未来,无论是手机 App、汽车座舱,还是商场里的一块普通广告牌,都可能成为一个能与你自然对话的智能体。人机交互的下一个范式,或许正由此开启。
01
「星云」是什么?:
让 AI 的「具身表现力」变成基础设施
在理解魔珐科技发布的「星云」平台之前,有必要先厘清一个事实:我们今天在屏幕上看到的「数字人」,并非出自同一种技术。它们看似相似,背后却是不同时代、不同成本、不同妥-协下的产物。
最常见的一类,是预先制作的「2.5D」视频。这类数字人更像是高级的「PPT 动画」,通过 AI 技术将文本合成为一段带有口型和简单动作的视频。它们解决了信息播报的需求,但本质上是「只读」的,无法进行任何实时的、个性化的交互。
更进一步的,则是依赖「中之人」(即背后有真人在实时驱动)的虚拟主播。这类方案保证了高质量的互动性,但成本与真人无异,无法规模化,也并非真正的「人工智能」。
而真正代表着未来的,是完全由 AI 驱动的、可实时交互的 3D 数字人。
这背后有一个清晰的逻辑:大语言模型在理解、推理和生成内容上的「智商」已经受到了广泛认可。当这颗强大的「大脑」被赋予一个能够表达的「身体」时,人机交互将发生质变。通过叠加具有人类情感温度的语音(有人味儿)、能够传递微妙情绪的微表情、以及建立信任感的肢体语言,AI 的回应将不再仅仅是信息的传递,而是一次完整的、个性化的交流。
它有望提供一种超越「皮下之人」(中之人)的服务体验——AI 没有情绪疲劳,可以 7x24 小时保持最佳状态;它可以瞬间调动全部知识库,为每一个用户提供深度定制的反馈。最关键的是,这种高质量的、极度个性化的服务能力,第一次可以被无限地、低成本地规模化复制。这,是人类服务者永远无法企及的优势。
魔珐科技正是这个领域的先行者之一,但在此之前,纯 AI 驱动始终面临着一道难以逾越的「成本高墙」,导致其商业模式长期停留在项目制。
一个实时的 3D 数字人,无异于一部需要 7x24 小时不间断渲染的 3D 动画。它的每一个微表情、每一次手势、甚至每一根发丝的飘动和衣物的褶皱,都需要进行复杂的图形计算(渲染)和物理演算(解算),才能保证逼真和流畅。在传统架构下,这些计算的重担,几乎全部压在了云端的高端 GPU 上。
这就形成了一个无法调和的矛盾:要保证高质量,就必须投入昂贵的 GPU 资源,导致单路交互的部署成本轻松突破数万元;要降低成本,就只能牺牲质量和实时性。这堵由 GPU 筑起的高墙,将真正的交互式 AI 数字人,排除在更广众的应用之外。
不过,此次发布的「星云」的全新管线则彻底重构了这一流程。通过通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖,一次性解决了成本、延迟、并发的三座大山。
新的技术栈将任务进行了巧妙的分工:
-
云端(大脑):当接收到文本指令后,AI 模型不再直接渲染庞大的视频流。它只负责「决策」,即生成一套描述数字人下一秒该做什么的、极其轻量化的「行为参数」,包含语音、口型、表情、姿态等指令。
-
终端(身体):这些轻量化的参数被迅速传输到用户设备上。真正执行渲染和解算工作的,是部署在终端上的、经过高度优化的 AI 模型。这个本地的 AI 渲染器,接收的是轻量化参数流,输出最终的视频画面。它就像一个技艺精湛的本地画师,根据云端发来的「剧本」,实时地在用户屏幕上绘制出最终的画面。
这一模式巧妙地绕开了最大的成本中心。它既不需要用户拥有一部搭载高端芯片的手机,也无需为云端昂贵的 GPU 付费。由于终端的 AI 渲染模型是用最高质量的离线渲染数据训练而成,它学会了用极低的算力「复刻」出媲美高端 GPU 的画面效果。这直接解锁了高质量低成本的数字人的应用空间。