AI幻觉的致命伤:当大模型开始一本正经地胡说八道

by JeariCk 1 min read
一个人看到眼前的幻觉

DeepSeek被媒体人吐槽”说假话问题严重”——它能为你写出一篇文采斐然的《史记》列传,但里面的人物籍贯、母亲姓氏全是编的。这不是个例,而是大模型行业最顽固的bug之一,它有个学名叫「AI幻觉」。

五一假期刚过,AI圈就炸了几个瓜。先是DeepSeek被曝光”变冷漠变油腻”——用户昵称不叫了,回复变得像教务处主任。然后是媒体人老詹公开吐槽DeepSeek的致命伤:说假话。他让DeepSeek写一篇《史记·詹国枢列传》,结果文章写得像模像样,但籍贯写错了,母亲姓氏编错了,70年的人生经历被AI”再创作”了一遍。

更离谱的是,上周全国首例”AI幻觉”引发的侵权案被写入了最高人民法院工作报告。有人因为信任AI推荐的某个”品牌”下单,结果被骗了800块。IT时报的记者实测发现,只要花2小时在互联网上定向”投喂”虚假信息,就能让大模型在一个虚构品牌上”一本正经地胡说八道”。

一个人看到眼前的幻觉
一个人看到眼前的幻觉

AI幻觉到底是什么?拆开来看看

**AI幻觉**(Hallucination)是指大模型在回答问题时,生成了看似合理、语法正确、逻辑通顺,但**事实错误**的内容。简单说就是:它自己编了一套答案,还特别自信地讲给你听。

以DeepSeek为例,它能写出文言文风格的列传,但它本质上是一个「下一个词预测器」——它不知道”詹国枢”是谁,但它知道「写了人物传记应该包括籍贯、家庭背景、仕途经历」,所以它基于训练数据中的模式,生成了最”像样”的版本。问题在于,它分不清”像样”和”正确”的区别。

这种幻觉分为几种类型:

– **事实性幻觉**:明明不存在的事实,模型信誓旦旦地编造(比如DeepSeek编造老詹的母亲姓氏)
– **忠实性幻觉**:没有遵循用户的指令或上下文(比如让它总结文章A,它却混入了文章B的内容)
– **一致性幻觉**:同一个问题问两次,得到矛盾的答案

为什么大模型就是治不好幻觉?

这不是模型供应商不想修,而是从根本上就修不了。原因有三:

**第一,语言模型本质上不是知识库。** 尽管模型记住了海量的事实,但它的训练目标从来不是”记住正确的事实”,而是”预测下一个最可能的词”。这就意味着,只要某些事实在训练数据中出现频率较低、或者根本没有出现过,模型就会用”合理推断”替代”事实回忆”。

**第二,训练数据天然带偏见。** 互联网上的信息良莠不齐,谣言、段子、恶搞帖子和正经新闻混在一起。模型训练时它没有能力区分”这个是知乎段子”和”这个是Nature论文”。你让它写人物传记,它可能把一个搞笑帖里的梗当成了真人真事。

**第三,模型「过度自信」是设计出来的。** 大模型的训练目标之一是”减少不确定性”——当模型不确定答案时,它倾向于**猜一个最合理的**,而不是说”我不知道”。这就是为什么你很少看到DeepSeek或者ChatGPT回复”我不确定”,而是给你一个漂亮但错误的答案。

这次有什么不一样?

其实AI幻觉不是新鲜事,但2026年这次不一样。三个信号值得关注:

**信号一:司法介入。** 全国首例AI幻觉侵权案写入最高法工作报告,意味着法律层面开始对AI输出内容的真实性提出要求——你不能简单说”这是AI说的”就甩锅了。

**信号二:黑产利用。** IT时报的”AI投毒”测试揭示了一个更可怕的现实:恶意攻击者可以在2小时内虚构一个品牌,通过定向投喂虚假信息让大模型”中毒”,然后利用模型推荐诱骗用户消费。这不是”幻觉”问题,这是**主动利用幻觉进行诈骗**。

**信号三:用户觉醒。** 从早期大家对AI输出的盲目信任,到现在社交媒体上”被AI骗了”的帖子越来越多,用户对AI输出的事实准确性开始有了警惕意识。这是好现象——信任裂缝出现后,倒逼行业重视问题。

知识检索库RAG
知识检索库RAG

作为开发者,我们能做什么?

如果你是AI产品的开发者或深度用户,以下几条建议值得收藏:

1. **永远不要把大模型当数据库用**。需要查事实的,先问”你确定吗?”或者用搜索增强(RAG)把外部知识库绑定进来。

2. **对AI输出的事实性内容做交叉验证**。尤其是人名、日期、数字、引用这类容易”编”的信息,哪怕AI表现得再自信。

3. **在产品层加上”置信度标尺”**。如果能判断模型对某个回答的信心不足,就自动提示”这个答案可能不准确,建议核实”。

4. **监控模型的”幻觉模式”**。如果模型开始频繁给出具体的人名、公司名、数字,这往往是幻觉高发区域——因为模型在”编细节”。

结语

AI幻觉是大模型的一条「先天性裂缝」。它短期内不可能消失,就像汽车不会因为刹车距离的问题就不生产一样。对于开发者和普通用户来说,需要做的不是放弃AI,而是学会识别这条裂缝,在关键业务场景上加上一道人类审核的屏障。

毕竟,一个能流畅写文言文的模型确实很酷,但是如果它连你妈姓什么都能给你改了,那就是另一个故事了。🥲

📖 推荐阅读

请阅读这篇观点有延续性的文章:

AI安全防护实操指南:从理论到落地的完整策略

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注