DeepSeek是由深度求索(DeepSeek AI)开发的一系列先进的人工智能模型,涵盖自然语言处理、代码生成、数学推理等多个领域,并以其高性能、高性价比和开源策略在业界脱颖而出。
体验地址:https://chat.deepseek.com/
聊天界面如下:
DeepSeek作为一款智能助手,其功能设计旨在通过不同层级的处理能力满足多样化的用户需求,模式包含基础搜索、深度思考、联网搜索三种。
DeepSeek,无论是V3还是R1模型,都是不太吃提示词的,只需要做到【准确表达】即可,核心就是"你是谁?你的任务是什么?你的要求是什么?"
提示词公式 = 角色+任务+要求
× 小白:"介绍美国本科申请策略"
√ 王者:"你是十五年经验的国际学校升学顾问,向高中生家长分析美国本科申请策略,要求包含GPA与标化成绩定位、三种选校方案优劣势对比、文书准备注意事项,控制在1200字以内。"
思考过程:
生成结果:
你有没有遇到过这种情况?
向AI提问技术问题,得到的答案像天书——专业术语堆砌、逻辑绕来绕去,比如问「什么是蒸馏模型」,它直接甩出一段高冷回复:
仿佛在说:专业吧?看不懂是你菜
在问题后追加一句:
"说人话 / 用通俗易懂的语言解释"
AI立刻切换「人话模式」,比如同样的蒸馏模型问题:
秒懂!像学霸同桌给你划重点
使用技巧
叠加效果更佳:"用小学生能听懂的话解释XXX,举2个生活中的例子"
反向操作:需要专业表达时加"用学术论文风格回答"
防杠声明:"不要用比喻,直接给出严谨定义"
R1除了能非常好的做常规推理模型都能做的数学题、代码等等,这次有一个非常非常特别的点是:
中文写作能力强到爆炸。
比如我让deepseek "以朱自清的写作风格,创作一篇文章"。
这个AI模型的中文写作能力,让专业作家都坐不住了!
目前几乎所有的推理模型,几乎都不联网。
而联网搜索是DeepSeek的一大亮点,它让模型在回答时不仅仅依赖预训练数据,还能实时从网络上检索最新的信息。
你可以问某些新兴技术领域的问题,DeepSeek都能通过联网搜索为你提供更准确、及时的回答。
例如,你问DeepSeek:“2025年春晚有哪些节目?”它可以在网络上找到最相关的资料,并结合大语言模型的能力生成确的回答。
除了联网搜索,DeepSeek还支持上传附件功能,这为用户提供了更多个性化的体验。
通过上传附件,你可以将自己的文件、知识库、甚至是一些需要深度推理的材料直接交给DeepSeek,让它基于这些专有的文件进行分析和推理。
无论是应用端还是API,都可以看到完整、透明的思考过程。API,通过设置 model='deepseek-reasoner'
,即可调用。
API调用指南:https://api-docs.deepseek.com/zh-cn/guides/reasoning_model
在每一轮对话过程中,模型会输出思维链内容(reasoning_content)和最终回答(content)。在下一轮对话中,之前轮输出的思维链内容不会被拼接到上下文中,如下图所示:
DeepSeek在后训练阶段大规模使用了RL强化学习技术,通过极少标注数据,极大提升模型推理能力。所有训练技术全部公开,目前全球多个研究机构均已复现R1。
R1预览版和正式版的参数高达660B,非一般公司能用。为进一步平权,于是他们就蒸馏出了6个小模型,并开源给社区。
最小的为1.5B参数,10G显存可跑。
HuggingFace链接:https://huggingface.co/deepseek-ai
如果你对这篇文章感兴趣,不妨点赞、分享或留言交流你的看法。让我们一起见证AI的无限可能!