首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 GeForce RTX 4070Ti可以运行模型deepseek-r1的哪个版本的模型? 提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。支持热加载模型文件,无需重新启动即可切换不同的模型。 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    5.3K33编辑于 2025-02-06
  • 来自专栏AllTests软件测试

    本地部署AI模型DeepSeek

    DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的语言模型的名称。 DeepSeek的核心产品,是一系列强大的语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 Ollama是一个开源的大型语言模型本地部署框架。 特点: 多平台支持,如Windows、macOS、Linux,还支持Docker,方便跨平台部署。 它支持多种语言模型运行程序,如Ollama和兼容OpenAI的应用程序编程接口(API),还内置了用于检索增强生成(RAG)的推理引擎,使其成为一个强大的人工智能部署解决方案。

    43710编辑于 2025-02-10
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 的安装方式去安装 若你的显卡是在Linux上面 可以使用如下命令安装 curl -fsSL https://ollama.com/install.sh | sh 当然Ollama不只是可以启动deepseek模型 ,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1

    2.3K20编辑于 2025-02-04
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 的安装方式去安装若你的显卡是在Linux上面 可以使用如下命令安装curl -fsSL https://ollama.com/install.sh | sh当然Ollama不只是可以启动deepseek模型 ,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1

    3K12编辑于 2025-01-26
  • 来自专栏数据挖掘

    模型高效下载部署方式

    下载模型sh hfd.sh gpt2 --tool aria2c -x 44.下载数据集sh hfd.sh wikitext --dataset --tool aria2c -x 4 二、国内魔塔社区下载下面以 cogvlm2-llama3-chinese-chat-19B 为例子SDK下载#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download

    41110编辑于 2024-07-15
  • 来自专栏.Net Core技术分享

    Ollama本地部署模型总结

    今天计划对之前ollama系列做个回顾,从如何部署到API使用,整理到一篇内容中,提供给大家参考。 ollama run deepseek-r1:1.5b 下载完成后,ollama会为我们运行刚下载的模型。下面是我运行成功的截图: 第三步:使用模型 恭喜你已经在本地成功安装了第一个私有模型。 Token:字符块,是模型的最小输出单位,同时也是模型的计费单位。 举个例子,对于天空为什么是蓝色的这句话,模型会进行拆分天空/为什么/是/蓝色/的,每一段就是一个token(实际情况会比这个例子复杂) 内容生成(/api/generate) 让模型帮我们生成指定的内容 在内容生成API中,我们仅传入了prompt,模型仅对我们本地的prompt进行回答,而在生成对话API中,我们还可以传入messages参数,包含我们多轮对话内容,使模型具备记忆功能。

    1.9K11编辑于 2025-03-30
  • 来自专栏陈冠男的游戏人生

    使用ollama本地部署开源模型

    chatGPT 刚出来没多久的时候,openai 时不时的限制使用频率,当时我想要是能本地部署一个模型,无限制的使用该多好哇。 后来有很多团队/公司陆陆续续在 github 开源了他们自己训练的模型,但是部署使用的操作门槛比较高,曾经试图部署过一个,报了几个错也没时间折腾就放弃了 前几天我发现了一个叫 ollama 的项目,根据介绍 ,一条命令就能跑起来一个模型,因此实际体验了一下,项目地址: https://github.com/ollama/ollama 先说一下使用体验,极其丝滑,完全没有报错,感觉就像是刚开始学 web 安全 ,此时就已经部署结束了 可以在:https://ollama.com/library 找到更多的模型 但是在命令行中直接交互里很多格式解析不出来,看起来怪怪的,可以使用 chatbot-ollama 这个项目部署一个 webUI,这样就可以在聊天框里面调用模型对话了,项目地址: https://github.com/ivanfioravanti/chatbot-ollama 这个项目部署起来也很简单,只要电脑上装有

    2.7K20编辑于 2024-03-05
  • 来自专栏微言码道

    本地部署模型的几种方式

    这之中当然有诸如GhatGPT, Gemini这样的私有化模型, 更吸引人关注的可能是开源的可私有化部署的一些模型. 比如Meta前两天开放的Lamma 3, Google的Gemma开源模型, 国内也有Qwen以及YI等. 无论私有的模型, 还是开源的可私有化部署模型, 各有优缺点. 相对而言, 一些开源的可私有化部署模型, 可能更令人关注. 因为只要有足够的硬件资源, 你就能私有化部署这些模型. 今天我就介绍几种常见的, 方便的私有化模型的方式, 这些方式都是开源或免费的. 私有化部署方式 Ollama 要说私有化部署模型最方便的方式, 我认为非Ollama莫属了. 总结 开源模型, 或者说本地化运行一个开源模型, 现在已经越发的简单与低门槛了. 只要有足够的GPU硬件, 本地化部署与运行开源模型非常简单及易于实现. 想部署一个本地大模型玩玩?

    7.2K10编辑于 2024-04-23
  • 来自专栏Python与算法之美

    Ollama 本地CPU部署开源模型

    Ollama可以在本地CPU非常方便地部署许多开源的模型。 如 Facebook的llama3, 谷歌的gemma, 微软的phi3,阿里的qwen2 等模型。 ollama run qwen2 #跑qwen2模型,如果本地没有,会先下载 ollama pull llama3 #下载llama3模型到本地 ollama list #查看本地有哪些模型可用 ollama rm #删除本地的某个模型 ollama help #获取帮助 ! 二, 命令行交互 可以在命令行中用 ollama run qwen2 运行一个模型,然后在命令行中和它对话。 下面的gif动画没有做任何加速。 这个回复速度还是非常的感人的~ 三,Python接口交互 在命令行运行 诸如 ollama run qwen2,实际上就会在后台起了一个qwen2的模型服务。

    2.9K11编辑于 2024-06-26
  • 来自专栏Java技术进阶

    基于LMDeploy部署模型和量化

    背景 模型具有庞大的参数量,内存开销,7B模型仅权重就需要14+G内存,采用自回归生成token,需要缓存Attention 的k/v带来巨大的内存开销;动态shape,请求参数不固定,Token逐个生成 ,且数量不定,因此在部署上都存在一些挑战。 LMDeploy介绍 LMDeploy 是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。 接下来,我们看一下lmdeploy提供的部署功能。 2.1 模型转换 使用 TurboMind 推理模型需要先将模型转化为 TurboMind 的格式,目前支持在线转换和离线转换两种形式。 我想直接在自己的 Python 项目中使用模型功能。推荐使用 TurboMind推理 + Python(2.5)。 我想在自己的其他非 Python 项目中使用模型功能。

    1.9K00编辑于 2024-03-01
  • 来自专栏GiantPandaCV

    模型部署框架 FastLLM 简要解析

    前言 本文主要是对FastLLM做了一个简要介绍,展示了一下FastLLM的部署效果。 atoi(this->weight.dicts["gmask_token_id"].c_str()) : 130001; #ifdef USE_CUDA // 清理 CUDA 的缓冲区 要在FastLLM中自定义一个模型,需要实现的核心部分就是这个模型文件了,从目前FastLLM提供的组件来看,基于Transformer架构的开源模型支持的难度和工作量会比较小,而对于新的架构比如RWKV 比较期待FastLLM推出ONNX的支持,这样就可以更方便的和各种类型的模型对接起来。 0x4. 总结 本文主要是对FastLLM做了一个简要介绍,展示了一下FastLLM的部署效果。

    1.1K20编辑于 2023-08-22
  • 来自专栏云原生知识宇宙

    在 TKE 上部署 AI 模型

    概述本文介绍如何在 TKE 上部署 AI 模型,以 DeepSeek-R1 为例,使用 Ollama、vLLM 或 SGLang 运行模型并暴露 API,然后使用 OpenWebUI 提供交互界面。 是一个运行模型的工具,可以看成是模型领域的 Docker,可以下载所需的模型并暴露 Ollama API,极大的简化了模型部署。 vLLM 的特点:推理性能更好,也更节约资源,适合部署到服务器供多人使用,还支持多机多卡分布式部署,上限更高,但能适配的 GPU 硬件比 Ollama 少,且需要根据不同 GPU 和模型来调整 vllm 选型建议:如果有一定的技术能力且愿意折腾,能用 vLLM 或 SGLang 成功跑起来更推荐用 vLLM 和 SGLang 将模型部署到 Kubernetes 中,否则就用 Ollama ,两种方式在本文中都有相应的部署示例 AI 模型数据如何存储?

    56300编辑于 2025-02-20
  • 来自专栏AI技术应用

    AI模型本地化部署

    AI模型本地化部署是将大规模人工智能模型(如GPT、LLaMA、DeepSeek等)部署到本地服务器或设备上,以满足数据隐私、安全性和性能需求的过程。 以下是AI模型本地化部署的关键步骤、技术难点及解决方案。一、本地化部署的关键步骤1.需求分析与规划 明确应用场景(如智能客服、文本生成、图像识别等)。评估本地硬件资源(GPU、内存、存储)和预算。 二、技术难点及解决方案1.计算资源需求高难点:模型需要高性能GPU和大量内存。解决方案:使用模型压缩技术(如量化、剪枝)和分布式计算。2.模型优化与效率难点:模型推理速度慢,资源利用率低。 国产化适配:国产AI算力和模型(如DeepSeek)将加速普及。边缘计算:模型将更多部署到边缘设备,满足实时性需求。 通过以上步骤和解决方案,AI模型本地化部署可以更好地满足行业需求,推动AI技术的广泛应用。

    1.8K10编辑于 2025-03-08
  • 来自专栏素质云笔记

    模型时代的模型运维与部署:LLMops

    这意味着 LLMOps 是一组工具和最佳实践,用于管理 LLM 支持的应用程序的生命周期,包括开发、部署和维护。 LLM(大型语言模型)是可以生成人类语言输出的深度学习模型(因此称为语言模型)。 2 LLMOps实现步骤 几个LLMops的步骤: 基础模型的选择 迭代和提示Prompt管理 测试 部署 监控 持续改进和微调 2.1 数据管理 2.1.1 数据清洗和预处理技术 原始数据可能存在噪声和结构混乱 测试和训练数据分布差异:实际使用的数据分布总是不同于训练数据的分布。 难以用一个核心指标去衡量:指标不那么直接,可能无法捕捉模型的不同行为。语言模型需要对行为和定性输出测量有更多样化的理解。 2.5 部署 部署LLM(语言模型)API可能很简单,但是如果API调用背后有很多逻辑,则会变得更加复杂。 提高LLM输出质量的技术包括自我评价、采样多个输出和集成技术。 ---- 3 参考文献 LLMOps(Large Language Model Operations)简介 了解一下新领域 LLMOps: 模型运维 LLM训练营课程笔记之 LLMOps: Deployment

    7K21编辑于 2023-07-09
  • 来自专栏AI智韵

    模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利

    摘要 vLLM(Very Large Language Model Serving)是由加州大学伯克利分校团队开发的高性能、低延迟语言模型(LLM)推理和服务框架。 该框架支持连续批处理、动态显存分配和多GPU并行推理,能够高效处理8k+长上下文请求,并兼容OpenAI API接口,开发者可快速部署Hugging Face模型。 通过集成FP8、AWQ等量化技术,vLLM在保证推理精度的同时大幅降低资源消耗,目前已成为企业级AI部署(如DeepSeek-R1 671B模型分布式集群)的首选方案。 多 LoRA 微调支持 同时部署基础模型的多个微调版本,提升资源利用率7,9。 VLLM部署 有两种部署方法,第一种使用vllm serve,我们使用1.5B的模型举例,执行命令: vllm serve deepseek/DeepSeek-R1-Distill-Qwen-1.5B

    1.2K10编辑于 2025-03-17
  • 来自专栏AI技术应用

    AI模型的本地化部署

    AI模型的本地化部署,是将原本在云端运行的大型人工智能模型,转移到本地的硬件设备上运行。这种部署方式,在数据隐私、网络延迟、成本控制等方面,都有着重要的意义。 以下是关于AI模型本地化部署的一些关键方面。1. 本地化部署的优势:数据隐私: 本地部署可以最大限度地保护敏感数据,避免数据在传输和存储过程中泄露的风险。 离线运行: 本地部署使得应用可以在没有网络连接的情况下运行,提高了应用的可用性。2. 本地化部署的技术难点:硬件资源限制: 模型通常需要大量的计算资源和内存,如何在有限的硬件资源上运行,是一个挑战。 ONNX Runtime: 跨平台的推理引擎,支持多种模型格式。Ollama,LM Studio: 这些工具均支持不同模型的本地部署,并优先使用GPU进行推理。5. 边缘计算: 在靠近数据源的边缘设备上运行模型,减少数据传输和处理延迟。总而言之,AI模型的本地化部署,是一项具有挑战性但也充满机遇的技术。

    59510编辑于 2025-03-10
  • 模型私有化部署工具比较

    LocalAILocalAI是一种专门为本地部署设计的工具,它支持多种AI模型和硬件环境。主要优点包括:灵活性:LocalAI支持多种操作系统和硬件,使得用户可以在不同的环境中部署模型。 然而,LocalAI也有一些缺点:资源需求:为了在本地运行模型,需要较高的计算能力,这可能导致较大的初期投资。技术支持有限:相对于成熟的云服务平台,LocalAI的用户社区和技术支持可能不够健全。 更新频率:更新和迭代速度可能无法与市场上快速发展的AI模型需求保持同步。目前遇到几次gpu显存不释放问题。背景:部署了rerank模型,使用vllm推理引擎。 如果请求量过大,会导致gpu显存占用过大,xinf好像会重新调用模型,但是之后不再继续使用gpu, 重新launch模型不管用。需要整个重启xinf。 OLLAMAOLLAMA是一个比较新的本地部署工具,它专注于提供高效的模型本地管理解决方案。OLLAMA的主要优点是:模型管理:强大的模型管理功能,支持多版本控制和自动更新。

    98010编辑于 2024-10-30
  • 来自专栏GiantPandaCV

    模型部署框架 FastLLM 实现细节解析

    CPU后端的算子解析就暂时讲到这里,我们发现CPU的算子实现不仅考虑了Intel CPU也考虑了Arm端的优化,这也是FastLLM可以在Arm边缘端部署模型的原因。 0x4. # Llama模型引入了旋转位置编码,以改进长序列处理的性能。 逆频率是一种用于位置编码的技巧, # 它可以帮助模型更好地捕捉位置信息。 emb = torch.cat((freqs, freqs), dim=-1) # 计算emb的余弦值,然后将结果保存到模型的缓存中。 总结 接着 模型部署框架 FastLLM 简要解析 这篇文章首先梳理了一下FastLLM的调用链和关键的数据结构,然后解析了 FastLLM 的一些实现细节和CPU/GPU后端实现采用的优化技巧。

    1.5K70编辑于 2023-08-22
  • 来自专栏喔家ArchiSelf

    部署一个模型应用

    【引子】“千里之行,始于足下”,边走边记,这是模型系列文字的第38篇文字了。 部署模型应用从开发环境迁移到生产环境的最后一步。 模型应用的部署关注点如下: 可伸缩性: 可伸缩性指的是系统处理不断增加的工作量的能力,或者为了适应这种增长而扩大其潜力的能力。在生产环境中,模型应用必须能够处理来自用户的潜在的大量请求。 用户访问: 用户访问是指最终用户与模型应用交互并利用其功能的能力。部署使得最终用户可以访问模型应用,无论他们是内部利益相关者还是外部客户。 一般地,部署一个模型应用会遵循如下步骤。 1. 小结 在生产环境中部署模型应用涉及到几个关键步骤,从模型准备和版本控制到使用 K8S 进行容器化部署部署过程中的每个工具和步骤都有替代方案,工具的选择取决于具体需求和优先事项。理解这些工具以及每个步骤背后的原因能帮助我们做出明智的决策,并成功地在生产环境中部署模型

    1K10编辑于 2024-11-07
  • 来自专栏全栈开发日记

    本地部署DeepSeek-R1模型

    从安装到API调用全流程指南 想不依赖网络、零门槛运行AI模型?Ollama帮你轻松实现! 本文手把手教你部署DeepSeek模型,并通过本地API实现对话、编程、数据分析,小白也能秒变AI玩家! 一、准备工作:安装Ollama Ollama是一个轻量级工具,支持在本地一键运行模型(如Llama、DeepSeek等),无需复杂配置。 1. 二、一键部署DeepSeek模型 Ollama内置了主流模型库,直接通过命令行拉取即可。 • 回复速度慢:关闭其他占用显存的程序,或尝试更小规模的模型(如deepseek-7b)。 通过Ollama,DeepSeek模型部署和调用变得前所未有的简单!

    1.5K10编辑于 2025-02-10
领券