最近DeepSeek爆火,但是你有没有想过,它的回复是不是一定准确?
根据测试,大家在用的R1版本,“胡说八道”的比例超过V3版本3倍多!(数字越低越好)
源网址:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
DeepSeek生成的内容,如果不审核直接用在工作中,就可能出现以下这位老哥的笑话... (搜索“战术核显卡”了解此梗)
这种“胡说八道”的现象,叫做大模型的“幻觉”。产生的原因推测是因为R1版本增加推理性的同时,牺牲了真实性。当然,所有大模型都或多或少存在类似问题,比例相对要低。
经小马实测,这个问题确实存在。在提问“photoshop最新的AI绘图功能都有哪些”时,DeepSeek推理过程意识到,引用网页6、8说的不是ps相关内容,但依然引用它们,给出了错误的答案。
如果在正式文件中用到“幻觉”信息,怎一个“惨”字了得。那怎么避免呢?
使用DeepSeek处理文案编写任务时,取消选择R1模型。这样就调用了准确性更高的V3模型。(编程及逻辑推理问题,还选R1)
如果为了推理效果好,仍然使用R1。仔细检查深度思考过程,看其与答案是否匹配。
仔细检查答案,对于公文、宣传文案等场景,建议将信息拷贝,使用DeepSeek V3或者豆包、Kimi等大模型交叉检查。
在引用大模型生成内容的地方,注明“该内容使用AI生成”。
希望这篇文章能帮助大家更好的使用DeepSeek等大模型,如果您也发现了类似”幻觉“问题,或者有其他问题需要咨询,欢迎留言或联系小马。
领取专属 10元无门槛券
私享最新 技术干货