首页 > 智慧生活 > 智慧生活 > 苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

发布时间:2025-06-06 16:18:19来源: 18638159832
AI「思考」只是假象?
 
  刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃!
 
  随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
 
  这太违背直觉了,似乎Scaling Law在推理时完全失效了。
 
  值得一提的是,论文作者中还有Samy Bengio,他也是图灵三巨头Yoshua Bengio的兄弟。
 
 
  论文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
 
  LRM模型因能「写出思考过程」而备受期待,被认为是AI推理能力跃升的关键。
 
 
  DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程
 
  但研究人员通过可控游戏环境的系统实验证明:现有LRMs不仅在高复杂度任务上力不从心,甚至还展现出一种「反常的推理崩溃曲线」——题目越难,它们反而越不「努力」。
 
  研究还通过在相同计算token预算下对比思考模型与普通模型,发现:
 
  不同于大多数仅衡量最终性能的研究,这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。
 
  三种不同的性能区间
 
  与以往主要依赖数学问题来评估语言模型推理能力的研究不同,本研究引入了可控的解谜环境。
 
  这种环境可以精确调节问题的复杂度,同时保持逻辑过程的一致性,从而更严谨地分析模型的推理模式和局限性。
 

智慧生活更多>>

联想预热ThinkBook 14+ 2026锐龙版笔记本:至高87W,LPCAMM2 Jabra捷波朗推出Evolve3办公娱乐两用耳机,可选贴耳或包耳款 好玩!Q4小米与荣耀并列,全年小米与OPPO并列 REDMI Pad 2 Pro官宣搭载12000mAh电池:69天超长待机 消息称荣耀Magic V6提档,可能是26年电池最大折叠屏手机 当经验成为可复制的资产,TRAE Skills 正在重新定义专业能力 不再依赖流量分发与价格补贴,AI或成即时零售争夺新入口 苹果AI两大爆料:iPhone喜提强力\"物理外挂\";Siri变强却与国内无缘? SOLAKAKA E9 Pro人体工学鼠标现身众筹平台,7侧键亮点足 iQOO 15销量出炉:仅次于小米17系列,网友:iQOO 15 Ultra值得等 realme真我Neo 8配置炸裂,1月22日登场! 澎湃OS再次公布进展通报:大量新机遇到问题,却只修复了一项! 曝腾讯向GitHub发函,要求下架“用户可获取自己聊天记录”的仓库 2025商业店装与展陈行业技术发展年会成功举办 四川绵竹三大千亿园区布局:循环经济、锂电崛起、白酒提质 全球首发天玑9500s!REDMI Turbo 5 Max明天官宣 荣耀Magic8 Pro Air官宣搭载安卓首个AI变焦阵列闪光灯 日活破亿的豆包,正悄然成为字节的“流量副中心” 国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱 2025年小米销量前五机型曝光:K80夺冠 小米15第三 荣耀放话既Pro又AIr!轻薄不再脆弱?这3点决定能否真香 骁龙8Gen5+1/1.56英寸的2亿像素!iQOOZ11Turbo将卷翻千元机市场 TCL Q10M系列测评:Mini LED电视普及者,选Q10M还是Q10M Pro? 4499 元, 2026 年苹果首款新iPhone 来了! 华为、英伟达角逐AI数据平台,存储成AI竞争前沿 华为nova15全系详解:花粉可以有更好的选择 华为和北汽的\\,合作项目,享界,要造台轿车 2026年哈弗或推“新物种”:大六座猛龙PLUS成焦点 帕萨特沉稳外表下藏3处小瑕疵难扛 1份实录解锁破解所有用车难题 为什么大众普遍使用EA211发动机?他的稳定性怎么样?