暂无搜索历史
从年初的 Claude 3.7 Sonnet、Gemini 2.5 Flash 到最近的 GPT-5、DeepSeek V3.1,走在前面的模型厂商无一不在思考...
这几天,一篇关于向量嵌入(Vector Embeddings)局限性的论文在 AlphaXiv 上爆火,热度飙升到了近 9000。
这是谷歌前不久在 Gemini API 全面上线的 URL Context 功能(5 月 28 日已在 Google AI Studio 中推出),它使 Gem...
人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。
从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。
当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展,催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方...
前些天,谷歌宣布 Gemini 具备了记忆能力。此前,它已经凭借长达 100 万 token 甚至更高的上下文长度,在「短期记忆」上有不错表现 —— 能够在一次...
LLM 似乎可以扮演任何角色。使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同...
想象一下,让 AI 预测下周的股价、下个月的票房冠军、甚至下届世界杯的赢家……这听起来像科幻片,但如今,它已经成为现实中一场「极限挑战」。
AI 的普及引发了全球范围内关于其对劳动市场潜在影响的辩论。历史上,技术总会以不同的方式影响着人们的工作和生活,有的工作被取代,有的工作被增强。
如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的...
在最新一期谷歌开发者节目里,Google DeepMind 团队首次全面展示了 Gemini 2.5 Flash Image —— 一款拥有原生图像生成与编辑能...
随着多模态、交互、编码等各项能力的进化,AI 智能体的应用也越来越广泛。随之而来的就是 AI 智能体在相应应用场景获取的权限也越来越多。
然而,这种性能的提升并非没有代价。模型在推理过程中会产生大量的中间步骤和文本(tokens),这不仅极大地拖慢了计算速度,还对内存和计算资源造成了巨大的压力。简...
ICLR 2025 已于今年 4 月落下了帷幕,最终接收了 11565 份投稿,录用率为 32.08%。
人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有...
2025 年 8 月,国务院印发《国务院关于深入实施“人工智能+”行动的意见》(以下简称《行动意见》),为人工智能发展描绘了至 2035 年的战略蓝图。
OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensiv...
上周三,DeepSeek 开源了新的基础模型,但不是万众期待的 V4,而是 V3.1-Base,而更早时候,DeepSeek-V3.1 就已经上线了其网页、Ap...
但来自中国的一位小哥偏不信邪,他打造的一款 AI 原生即时通讯工具 Intent,广受好评。
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市