|

浪流科技网
2000活跃值=1葫芦

首页 > 智慧生活 > 智慧生活 > 苹果拆解AI大脑，推理模型全是「装」的？Bengio兄弟合著

苹果拆解AI大脑，推理模型全是「装」的？Bengio兄弟合著

发布时间：2025-06-06 16:18:19来源： 18638159832

AI「思考」只是假象？

　　刚刚，一项来自苹果的重磅研究揭示了「大推理模型（LRM）」背后的惊人真相——这些看似聪明的模型，在面对稍复杂点的题目时，准确率居然会全面崩溃！

　　随着问题变难，推理模型初始会延长思考，但随后思考深度反而下降，尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃！

　　这太违背直觉了，似乎Scaling Law在推理时完全失效了。

　　值得一提的是，论文作者中还有Samy Bengio，他也是图灵三巨头Yoshua Bengio的兄弟。

　　论文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

　　LRM模型因能「写出思考过程」而备受期待，被认为是AI推理能力跃升的关键。

　　DeepSeek-R1 模式的开源开启了LLM进化到LRM的进程

　　但研究人员通过可控游戏环境的系统实验证明：现有LRMs不仅在高复杂度任务上力不从心，甚至还展现出一种「反常的推理崩溃曲线」——题目越难，它们反而越不「努力」。

　　研究还通过在相同计算token预算下对比思考模型与普通模型，发现：

　　不同于大多数仅衡量最终性能的研究，这项最新研究分析了它们实际的推理轨迹——深入观察其冗长的「思考」过程。

　　三种不同的性能区间

　　与以往主要依赖数学问题来评估语言模型推理能力的研究不同，本研究引入了可控的解谜环境。

　　这种环境可以精确调节问题的复杂度，同时保持逻辑过程的一致性，从而更严谨地分析模型的推理模式和局限性。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“浪流科技网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:vivo X Fold5将推全新金属漆面绿版，延续全球最轻薄大折叠设计

上一篇:苹果 Apple TV + 全新自然纪录片《The Wild Ones》7 月 11 日全球首播，带你探索濒危物种

智慧生活更多>>

联想预热ThinkBook 14+ 2026锐龙版笔记本：至高87W，LPCAMM2 Jabra捷波朗推出Evolve3办公娱乐两用耳机，可选贴耳或包耳款好玩！Q4小米与荣耀并列，全年小米与OPPO并列 REDMI Pad 2 Pro官宣搭载12000mAh电池：69天超长待机消息称荣耀Magic V6提档，可能是26年电池最大折叠屏手机当经验成为可复制的资产，TRAE Skills 正在重新定义专业能力不再依赖流量分发与价格补贴，AI或成即时零售争夺新入口苹果AI两大爆料：iPhone喜提强力\"物理外挂\"；Siri变强却与国内无缘？ SOLAKAKA E9 Pro人体工学鼠标现身众筹平台，7侧键亮点足 iQOO 15销量出炉：仅次于小米17系列，网友：iQOO 15 Ultra值得等 realme真我Neo 8配置炸裂，1月22日登场！澎湃OS再次公布进展通报：大量新机遇到问题，却只修复了一项！曝腾讯向GitHub发函，要求下架“用户可获取自己聊天记录”的仓库 2025商业店装与展陈行业技术发展年会成功举办四川绵竹三大千亿园区布局：循环经济、锂电崛起、白酒提质全球首发天玑9500s！REDMI Turbo 5 Max明天官宣荣耀Magic8 Pro Air官宣搭载安卓首个AI变焦阵列闪光灯日活破亿的豆包，正悄然成为字节的“流量副中心” 国产Nano Banana开源！用华为AI芯片训练，1张图只要1毛钱 2025年小米销量前五机型曝光：K80夺冠小米15第三荣耀放话既Pro又AIr！轻薄不再脆弱？这3点决定能否真香骁龙8Gen5＋1/1.56英寸的2亿像素！iQOOZ11Turbo将卷翻千元机市场 TCL Q10M系列测评：Mini LED电视普及者，选Q10M还是Q10M Pro？ 4499 元， 2026 年苹果首款新iPhone 来了！华为、英伟达角逐AI数据平台，存储成AI竞争前沿华为nova15全系详解：花粉可以有更好的选择华为和北汽的\\，合作项目，享界，要造台轿车 2026年哈弗或推“新物种”：大六座猛龙PLUS成焦点帕萨特沉稳外表下藏3处小瑕疵难扛 1份实录解锁破解所有用车难题为什么大众普遍使用EA211发动机？他的稳定性怎么样？

Copyright 2018-2025 浪流科技网版权所有京ICP备2025131429号-2