AI大模型“幻觉“从何而来?解密GPT-4、DeepSeek一本正经胡说八道的真相

发布时间:2026/6/29 20:54:54
AI大模型“幻觉“从何而来?解密GPT-4、DeepSeek一本正经胡说八道的真相 你问AI一道数学题它能给你写出完整推导过程。你给它一段乱码它能指出哪里有逻辑漏洞。你让它分析一份合同它能告诉你哪条条款有风险、应该怎么改。它还能帮你读文献几百页的论文扔进去它给你整理出核心观点和研究结论。听起来AI似乎真的很会思考。但如果你顺着它的答案多问几句为什么依据是什么有没有反例然后它就开始露馅了。有时候它会给出听起来合情合理、但根本不存在的事实。有时候它信誓旦旦引用一篇论文你去查这篇论文根本是子虚乌有。AI的“思考”到底是什么为什么会给我们子虚乌有的回答理解AI的推理机制你就能找到答案。AI是怎么思考的根据思维方式的不同我们可以把AI的推理能力分为三个层次。逻辑推理根据规则进行推导。常识推理结合真实世界的经验知识进行推理。批判性思维评估证据质量、识别逻辑漏洞、权衡不同立场然后进行推理。AI对于逻辑推理有明确规则与定论的推理往往比较擅长。而需要根据情感经验基于主观能动性进行的常识推理和批判性思维就不尽如意了。下面我们就逐一分析一下。逻辑推理曾经被认为AI最难攻克的领域数学和逻辑推理今天的大语言模型也已经逐步攻克。2025年数学家陶哲轩在个人博客中详细描述了他如何用AI辅助研究工作进行复杂的数学计算和证明包括用大模型帮他理解复杂证明的结构、用形式化验证工具Lean检查证明的每一步。GitHub Copilot 2025年发布的开发者调研显示83%的程序员已经在用AI辅助调试代码分析代码中的语法和逻辑错误平均每周节省5至8小时。GPT-4在美国律师资格考试Uniform Bar Exam上的得分超过90%的考生GPT-4不仅通过了美国医师资格考试USMLE而且分数还远超及格线。国产模型也在迎头赶上。智谱GLM-5在2025年MMLU大规模多任务语言理解基准测试中得分92.3%与GPT-4 Turbo持平。通义千问Qwen3在数学推理基准MATH上得分率超过85%。2026年新发布的DeepSeek V4在编程基准Design2Code测试中斩获92.0的高分精准将UI草图转化为生产级代码支持百万级tokens上下文单次代码测试成本仅1美元约为Claude的1/68。AI的这些表现让很多人惊呼AI比人更聪明了。当然这个结论下得有点早。常识推理AI推理有个明显短板缺乏人类常识。这涉及AI领域一个长期悬而未决的问题常识推理Commonsense Reasoning