首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#LLM

【外一篇:推理范式演进中的概念】

立委

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train) - 推断时间(Inference Tim...

000

2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!

福大大架构师每日一题

最初,DeepSeek凭借其“性价比”优势迅速扩展到全球各地,随后引发了整个行业的激烈竞争。到了2月初,谷歌推出了Gemini 2.0系列模型。

1300

GPT进入蛋白质组学:LLM如何推动生命科学变革

用户11203141

科学家们将Transformer模型(GPT)应用于蛋白质序列数据,试图在蛋白质组学领域复制大语言模型(LLM)的成功。本篇文章将带你了解蛋白质语言模型(pLM...

2500

2024顶尖AI大模型LLM排名揭晓,你的AI选对了没?快来验证!

用户11203141

随着OpenAI发布ChatGPT之后,竞争打造顶尖的大型语言模型(LLM)产品的热潮急剧升温。无论是大型科技企业、初创公司还是开源社区,都在积极投入资源开发尖...

1500

langchain4j+poi小试牛刀

code4it

langchain4j-core/src/main/java/dev/langchain4j/data/document/Document.java

2300

解密prompt系列50. RL用于优化Agent行为路径的一些思路

风雨中的小七

奖励函数对应的就是优势函数,如果奖励函数超过该状态的平均价值,则意味着策略函数应该进行该动作例如Search或者Expand,反之不应该。这样策略函数(LLM)...

3600

生成式AI学习中容易混淆的几个术语

立委

推理模型是当前生成式AI的主流热点,带火了一个热词(buzz word)叫 test time compute,咱们就先从它谈起。

2500

langchain4j+Chroma小试牛刀

code4it

langchain4j提供了langchain4j-chroma模块用于访问Chroma。需要注意的是

800

思维链是大模型的符号神助攻

立委

在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2024年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破...

5610

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

新智元

用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中...

5110

ComfyUI+Lumina小试牛刀

code4it

地址:https://huggingface.co/Comfy-Org/Lumina_Image_2.0_Repackaged/tree/main/all_in...

6600

大模型微调与RAG检索增强有何区别?从基础原理到案例分析全面详解

fanstuck

如果你一直在跟着Fanstuck博主的脚步探索AI大模型的相关内容,从最初的大模型Prompt工程解析,DeepSeek全面解析,到实际的私有化大模型开发部署,...

32486

图解KV Cache:解锁LLM推理效率的关键

致Great

概括来说,每一轮用上一轮的输出当作新的输入让 LLM 预测,一般这个过程会持续到输出达到提前设定的最大长度或者 LLM 自己生成了特殊的结束 token。

8710

LLM 大语言模型定义以及关键技术术语认知

山河已无恙

预测生成(Autoregressive Generation)是指大型语言模型(LLM)基于已输入的上下文逐词生成后续内容的过程。

8000

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

新智元

一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。

7610

历时6个月,Hugging Face开源LLM「超大规模实战手册」!200页3万字4000次训练

新智元

最近,Hugging Face发布了一个「超大规模训练手册」,教我们如何在GPU集群上训练LLM。

7400

大模型是否有自知之明?新研究发现LLM可以知晓自己的知识范围

机器之心

他们发现,大型语言模型(LLM)有自知之明,也就是说,只要规模够大,它们就能够知道自己对某个主题的了解程度。该论文中写到:「虽然不同架构涌现这种能力的速率不同,...

3500

Minimind - 人人都能训练的“小”模型

硬学AI工坊

Minimind 是一个“小”语言模型,总共只有 2500 万个参数,最小版本体积只有 GPT-3 的七千分之一,作者称只需要3块钱+2小时就可以完成训练,项目...

22710

The Three-Stage Scaling Laws Large Language Models

立委

Mr. Huang's background features three S-curves, illustrating the scaling relay r...

8810

langchain4j+milvus实战

code4it

langchain4j提供了langchain4j-milvus用于集成对milvus的访问。

12810
领券