AI幻觉的致命伤：当大模型开始一本正经地胡说八道 JeariCk

DeepSeek被媒体人吐槽”说假话问题严重”——它能给你写一篇文采斐然的《史记》列传，但里头的籍贯、母亲姓氏全是它编的。不是个例，是大模型行业最顽固的bug之一。

五一刚过，AI圈就炸了几个瓜。先是DeepSeek被说”变冷漠变油腻”——不叫你昵称了，回复像教务处主任。然后媒体人老詹让DeepSeek写一篇《史记·詹国枢列传》，写得有模有样，但籍贯错了，母亲姓氏编错了，七十年人生被AI改写了。

更离谱的是，全国首例幻觉引发的侵权案写进了最高法工作报告。有人信了AI推荐的一个”品牌”下了单，结果被骗八百块。IT时报实测，只要花两小时在网上定向投喂虚假信息，就能让大模型在一个虚构品牌上”一本正经地胡说八道”。

这还不是最吓人的。港大经管学院的人工智能评估实验室（AIEL）测了37个中美主流大模型，结果GPT-5的事实准确度连75分都没过。就是说，现在最好的大模型，在”说实话”这事上，及格线都够呛。

AI幻觉到底是什么？

它就是大模型回答问题的时候，生成了看起来合理、语法没错、逻辑顺溜，但事实不对的东西。大白话：它自己编了一套答案，还特别自信地讲给你听。

拿DeepSeek举例子，它能写文言风格的列传，但它骨子里就是个「下一个词预测器」——它不知道”詹国枢”是谁，它只知道「人物传记应该有籍贯、家庭背景、仕途经历」，于是从训练数据里的模式凑了一版最”像样”的。问题是，它分不清”像样”和”正确”的区别。

学术界通常分三类（参考arXiv:2309.01219，2025年9月更新到v3）：

– 事实性幻觉：不存在的事实，说得跟真的似的。DeepSeek编造老詹母亲姓氏，或者AI生成的专业论文引用全是假的。

– 忠实性幻觉：不按指令和上下文来。让它总结文章A，它把文章B的内容也塞进去。港大AIEL的测评里，GPT-5在忠实性上能拿满分——但反过来看，模型越会”听指令”，在不该发挥的地方越容易自己加戏。

– 结构性幻觉：写代码最常见。语法没问题，跑起来就崩。研究圈管这个叫”句法幻觉”。

2026年：幻觉率降了多少？

好消息是确实在降。坏消息是离”靠谱”还有距离。

Vectara Hallucination Leaderboard 测了7700多篇文章，当前主流模型的幻觉率从1.8%到24.2%不等，差距超过13倍。排名靠前的有 antgroup 的 finix_s1_32b（1.8%），Google 的 Gemini 2.5 Flash Lite（3.3%），微软的 Phi-4（3.7%），Meta 的 Llama 3.3 70B（4.1%）。

但到了末位区，Grok 4.1 飙升到19.2%，Ministral 3B更是高达24.2%。

这几个数什么意思？一个幻觉率3%的模型，每33句话里可能有一句是编的。闲聊没问题，但如果它在写代码、做财务分析、出医疗建议，这个概率就让人不踏实了。

支付宝内部披露过一个有意思的数据：他们用于支付保险场景的模型，幻觉率从最初的3%降到了0.6%。说明在垂直场景下靠领域微调加数据闭环，确实能压到很低的水平。但这是拿大量真实业务数据换来的，躺平可不行。

为什么这毛病就是治不好？

不是供应商不想修，是从根上就修不了。

第一，语言模型本质上就不是知识库。它记住了海量事实，但训练目标从不是”记住正确的事实”，而是”预测下一个最可能的词”。某些事实在训练数据里出现少、或者压根没出现过，它就调用”合理推断”来顶替”事实回忆”。新加坡国立大学的研究人员甚至发了篇论文，从数学上证明幻觉对这类模型来说是不可避免的——总有问题超出它的能力范围，这时候它必然要靠编。

第二，训练数据本身就有毒。网上谣言、段子、恶搞帖子和正经新闻搅在一起。模型训练时没能力区分”这个是知乎段子”和”这个是Nature论文”。让它写人物传记，它可能把一个搞笑帖里的梗当真了。

第三，「过度自信」是刻意设计出来的。大模型的训练目标之一是”减少不确定性”——不确定答案的时候，它倾向猜一个最合理的，而不是说”我不知道”。所以你很少看到DeepSeek或者ChatGPT说”我不确定”，它们只会给你一个漂亮但错误的答案。RLHF在这个过程中甚至可能帮倒忙——它教模型要”回答得像回事”，而不是”回答得准确”。

这次有什么不一样？

这不是新鲜事，但2026年这波不一样。三个信号。

信号一：司法开始管了。 全国首例幻觉侵权案写进了最高法工作报告，说明法律层面对AI输出内容的真实性开始提要求了——不能一句”这是AI说的”就把锅甩干净。

信号二：黑产盯上了。 IT时报的”AI投毒”测试揭示了一个更可怕的现实：攻击者花两小时虚构一个品牌，靠定向投喂虚假信息让大模型”中毒”，然后用模型的推荐去骗用户消费。这不是”幻觉”问题，这是主动拿幻觉当诈骗工具。

信号三：港大AIEL的测评贴了底。 37个中美主流大模型横向对比，推理模型（通义千问3思考模式、Claude 4 Opus思考模式）在幻觉控制上明显优于同系列的通用版。也就是说，让模型”多想想再回答”是目前最有效的路径之一。但最好的推理模型，事实准确度天花板也只有75分上下。

作为开发者，我们能做什么？

RAG是目前最保命的手段。 多项研究说检索增强生成能把事实性幻觉砍掉20%到40%。思路简单：别让模型瞎猜，给它塞靠谱的资料照着说。但有个坑——检索质量决定效果上限，检索到垃圾文档反而可能引入新的幻觉。

允许模型说”不知道”。 听起来简单，效果出奇好。很多幻觉的产生是因为模型被训练得”太好说话”——它没有一个拒答选项。在Prompt里加一句”如果你不确定，请直接说不知道”，就能明显减少自信式幻觉。

关键信息做交叉验证。 人名、日期、数字、引用最容易编。哪怕AI说得再肯定，只要涉及这些就值得多查一轮。你还可以换不同角度问同一个问题，看答案是否一致，或者用uqlm这类工具做自动检测。

按风险等级分层。 不是所有场景都要100%准确。医疗诊断、法律建议、财务决策这种高风险场景，RAG加人工审核加免责声明是标配。头脑风暴、草稿起草这种低风险场景，基本Prompt优化就够了。

优先选推理模型。 港大AIEL的测评已经给了实证——推理模型在幻觉控制上更靠谱。预算允许就优先选带”思考模式”的版本。

结语

它是大模型一条「天生的裂缝」。短期内不可能消失，就像汽车不会因为刹车有距离就不生产了。

新加坡国立大学的学者从数学上证明了——只要大模型还是”预测下一个词”的路线，它就永远有编造的可能性。Vectara的CEO说得更直白：模型已经在计算能力的边缘运行了，想靠把模型做大来消除幻觉，只会换来更慢、更贵、更费电的模型。

所以对开发者和普通用户来说，不是放弃AI，而是学会识别这条裂缝，在关键业务上加一道人类审核的屏障。

一个能流畅写文言文的模型确实很酷，但如果它连你妈姓什么都能给你改了，那就是另一个故事了。🥲

📖 推荐阅读

推荐阅读下面跟AI相关的文章：

AI安全防护实操指南：从理论到落地的完整策略

LangChain Agents深度解析：从入门到动手搭建你的第一个AI智能体