首页 > 智慧生活 > 智慧生活 > 从文字到语音交互,AI 的下一个爆发点可能是拥有自己的身体

从文字到语音交互,AI 的下一个爆发点可能是拥有自己的身体

发布时间:2025-10-30 16:49:01来源: 15899207736

你最近的社交媒体,大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。

Sora 的病毒式传播,证明了 AI 生成内容的一条黄金法则:人类最着迷的,永远是人类自己。这些影像之所以能迅速成为一种赛博奇观,超越以往所有 AI 视频的传播力,正是因为它第一次高质量地将创作主体从风景、动物,聚焦到了人类自身。

但热潮过后,一个更现实的问题浮出水面:Sora 生成的数字人无论多么逼真,本质上仍是活在预设脚本里的「演员」。它们是内容生成的终点,却无法成为实时交流的起点。在这种「文生视频」的范式下,AI 被困在一次性的创作流程中,这与一个能随时响应、无处不在的智能伙伴相去甚远。

那为什么一个能随时响应的AI数字人,至今仍未普及?

主要原因就是成本。

而这一矛盾,正是下一轮技术演进的发力点。

10 月 29 日,魔珐科技,正式发布了 3D 数字人开放平台「星云」。其核心,就是将过去属于大企业预算的「项目制」奢侈品,转变为所有开发者都能通过 SDK 快速集成的基础能力。

魔珐科技之前就是 3D 数字人的领先提供商之一,深知许多企业在听到高昂的部署价格后只能望而却步。而他们近期的技术突破,正是对这一核心痛点的精准打击:通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖。这使得生成的数字人不仅保证了高质量,还能在百元级芯片上流畅运行。

当一个高质量、可交互的 3D 数字人大幅降低了运行成本,其意义远超技术本身。这意味着,AI 终于获得了入住每一块屏幕的入场券。未来,无论是手机 App、汽车座舱,还是商场里的一块普通广告牌,都可能成为一个能与你自然对话的智能体。人机交互的下一个范式,或许正由此开启。

01

「星云」是什么?:

让 AI 的「具身表现力」变成基础设施

在理解魔珐科技发布的「星云」平台之前,有必要先厘清一个事实:我们今天在屏幕上看到的「数字人」,并非出自同一种技术。它们看似相似,背后却是不同时代、不同成本、不同妥-协下的产物。

最常见的一类,是预先制作的「2.5D」视频。这类数字人更像是高级的「PPT 动画」,通过 AI 技术将文本合成为一段带有口型和简单动作的视频。它们解决了信息播报的需求,但本质上是「只读」的,无法进行任何实时的、个性化的交互。

更进一步的,则是依赖「中之人」(即背后有真人在实时驱动)的虚拟主播。这类方案保证了高质量的互动性,但成本与真人无异,无法规模化,也并非真正的「人工智能」。

而真正代表着未来的,是完全由 AI 驱动的、可实时交互的 3D 数字人。

这背后有一个清晰的逻辑:大语言模型在理解、推理和生成内容上的「智商」已经受到了广泛认可。当这颗强大的「大脑」被赋予一个能够表达的「身体」时,人机交互将发生质变。通过叠加具有人类情感温度的语音(有人味儿)、能够传递微妙情绪的微表情、以及建立信任感的肢体语言,AI 的回应将不再仅仅是信息的传递,而是一次完整的、个性化的交流。

它有望提供一种超越「皮下之人」(中之人)的服务体验——AI 没有情绪疲劳,可以 7x24 小时保持最佳状态;它可以瞬间调动全部知识库,为每一个用户提供深度定制的反馈。最关键的是,这种高质量的、极度个性化的服务能力,第一次可以被无限地、低成本地规模化复制。这,是人类服务者永远无法企及的优势。

魔珐科技正是这个领域的先行者之一,但在此之前,纯 AI 驱动始终面临着一道难以逾越的「成本高墙」,导致其商业模式长期停留在项目制。

一个实时的 3D 数字人,无异于一部需要 7x24 小时不间断渲染的 3D 动画。它的每一个微表情、每一次手势、甚至每一根发丝的飘动和衣物的褶皱,都需要进行复杂的图形计算(渲染)和物理演算(解算),才能保证逼真和流畅。在传统架构下,这些计算的重担,几乎全部压在了云端的高端 GPU 上。

这就形成了一个无法调和的矛盾:要保证高质量,就必须投入昂贵的 GPU 资源,导致单路交互的部署成本轻松突破数万元;要降低成本,就只能牺牲质量和实时性。这堵由 GPU 筑起的高墙,将真正的交互式 AI 数字人,排除在更广众的应用之外。

不过,此次发布的「星云」的全新管线则彻底重构了这一流程。通过通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖,一次性解决了成本、延迟、并发的三座大山。

新的技术栈将任务进行了巧妙的分工:

 

  •  

    云端(大脑):当接收到文本指令后,AI 模型不再直接渲染庞大的视频流。它只负责「决策」,即生成一套描述数字人下一秒该做什么的、极其轻量化的「行为参数」,包含语音、口型、表情、姿态等指令。

     

  •  

    终端(身体):这些轻量化的参数被迅速传输到用户设备上。真正执行渲染和解算工作的,是部署在终端上的、经过高度优化的 AI 模型。这个本地的 AI 渲染器,接收的是轻量化参数流,输出最终的视频画面。它就像一个技艺精湛的本地画师,根据云端发来的「剧本」,实时地在用户屏幕上绘制出最终的画面。

     

 

这一模式巧妙地绕开了最大的成本中心。它既不需要用户拥有一部搭载高端芯片的手机,也无需为云端昂贵的 GPU 付费。由于终端的 AI 渲染模型是用最高质量的离线渲染数据训练而成,它学会了用极低的算力「复刻」出媲美高端 GPU 的画面效果。这直接解锁了高质量低成本的数字人的应用空间。

智慧生活更多>>

联想预热ThinkBook 14+ 2026锐龙版笔记本:至高87W,LPCAMM2 Jabra捷波朗推出Evolve3办公娱乐两用耳机,可选贴耳或包耳款 好玩!Q4小米与荣耀并列,全年小米与OPPO并列 REDMI Pad 2 Pro官宣搭载12000mAh电池:69天超长待机 消息称荣耀Magic V6提档,可能是26年电池最大折叠屏手机 当经验成为可复制的资产,TRAE Skills 正在重新定义专业能力 不再依赖流量分发与价格补贴,AI或成即时零售争夺新入口 苹果AI两大爆料:iPhone喜提强力\"物理外挂\";Siri变强却与国内无缘? SOLAKAKA E9 Pro人体工学鼠标现身众筹平台,7侧键亮点足 iQOO 15销量出炉:仅次于小米17系列,网友:iQOO 15 Ultra值得等 realme真我Neo 8配置炸裂,1月22日登场! 澎湃OS再次公布进展通报:大量新机遇到问题,却只修复了一项! 曝腾讯向GitHub发函,要求下架“用户可获取自己聊天记录”的仓库 2025商业店装与展陈行业技术发展年会成功举办 四川绵竹三大千亿园区布局:循环经济、锂电崛起、白酒提质 全球首发天玑9500s!REDMI Turbo 5 Max明天官宣 荣耀Magic8 Pro Air官宣搭载安卓首个AI变焦阵列闪光灯 日活破亿的豆包,正悄然成为字节的“流量副中心” 国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱 2025年小米销量前五机型曝光:K80夺冠 小米15第三 荣耀放话既Pro又AIr!轻薄不再脆弱?这3点决定能否真香 骁龙8Gen5+1/1.56英寸的2亿像素!iQOOZ11Turbo将卷翻千元机市场 TCL Q10M系列测评:Mini LED电视普及者,选Q10M还是Q10M Pro? 4499 元, 2026 年苹果首款新iPhone 来了! 华为、英伟达角逐AI数据平台,存储成AI竞争前沿 华为nova15全系详解:花粉可以有更好的选择 华为和北汽的\\,合作项目,享界,要造台轿车 2026年哈弗或推“新物种”:大六座猛龙PLUS成焦点 帕萨特沉稳外表下藏3处小瑕疵难扛 1份实录解锁破解所有用车难题 为什么大众普遍使用EA211发动机?他的稳定性怎么样?