文章/答案/技术大牛

发布

社区首页 >专栏 >大模型llm：Ollama部署llama3学习入门llm

大模型llm：Ollama部署llama3学习入门llm

黄规速

发布于 2024-05-24 07:50:16

5.8K02

代码可运行

文章被收录于专栏：架构师成长之路架构师成长之路

运行总次数：2

代码可运行

一、llama3简介

Llama 3 是一个自回归语言模型（an auto-regressive language），它使用优化的 transformer 架构。调整后的版本使用监督微调（SFT）和带有人类反馈的强化学习（RLHF），以符合人类对有用性和安全性的偏好。

相关参数

	训练数据	参数量	上下文长度	分组查询注意力 (GQA)	预训练数据	知识截至日期
Llama 3	公开在线数据集	8B	8K	是	15T+	2023 年 3 月
Llama 3		70B	8K	是	15T+	2023 年 12 月

Llama3这个模型是在Meta新建的两座数据中心集群中训练的，包括超4.9万张英伟达H100GPU。

Llama3大型模型则达到400B，仍在训练中，目标是实现多模态、多语言的功能，预计效果将与GPT 4/GPT 4V相当。

二、Ollama安装

1、Ollama简介

Ollama 是一个开源的大型语言模型（LLM）服务工具，它允许用户在本地机器上运行和部署大型语言模型。Ollama 设计为一个框架，旨在简化在 Docker 容器中部署和管理大型语言模型的过程，使得这一过程变得简单快捷。用户可以通过简单的命令行操作，快速在本地运行如 Llama 3 这样的开源大型语言模型。

官网地址：https://ollama.com/download

Ollama 支持多种平台，包括 Mac 和 Linux，并提供了 Docker 镜像以简化安装过程。用户可以通过编写 Modelfile 来导入和自定义更多的模型，这类似于 Dockerfile 的作用。Ollama 还具备一个 REST API，用于运行和管理模型，以及一个用于模型交互的命令行工具集。

ollama 生态

GitHub - ollama/ollama: Get up and running with Llama 3, Mistral, Gemma, and other large language models.

客户端桌面、Web
命令行工具
数据库工具
包管理工具
类库

2、安装ollama

Linux自动安装很简单，直接执行：

yum update -y nss curl libcurl

curl -fsSL https://ollama.com/install.sh >>install.sh

下载curl证书：

wget https://curl.se/ca/cacert.pem --no-check-certificate

添加curl证书

cat cacert.pem >> /etc/pki/tls/certs/ca-bundle.crt

sh install.sh

curl -fsSL https://ollama.com/install.sh | sh

3、启动ollama

nohup ollama serve &

访问 Ollama Web 界面：打开您的浏览器，并访问 http://localhost:11434

若页面出现Ollama is running。则说明程序正常。

（如果您的 Docker 守护进程运行在远程主机上，则将 localhost 替换为相应的 IP 地址）。您将会看到 Ollama 的 Web 界面，通过它您可以开始构建、训练和部署深度学习模型。

Ensure that the Ollama server is properly configured to accept incoming connections from all origins. To do this, make sure the server is launched with the OLLAMA_ORIGINS=* environment variable, as shown in the following command:

OLLAMA_HOST=0.0.0.0 OLLAMA_ORIGINS=* ollama serve

This configuration allows Ollama to accept connections from any source.

所有地方都可以访问，使用变量设置，要不然只能是127.0.0.1访问：

export OLLAMA_HOST=0.0.0.0 export OLLAMA_ORIGINS=*

nohup ollama serve &

为使外网环境能够访问到服务，需要对HOST进行配置。

打开配置文件：vim /etc/systemd/system/ollama.service，根据情况修改变量Environment：

服务器环境下：Environment="OLLAMA_HOST=0.0.0.0:11434" 虚拟机环境下：Environment="OLLAMA_HOST=服务器内网IP地址:11434"

方法一：执行curl http://ip:11434命令，若返回“Ollama is running”，则表示连接正常。

方法二：在浏览器访问http://ip:11434，若页面显示文本“Ollama is running”，则表示连接正常。

三、llama3 模型下载安装

1、llama3 下载

默认下载的是llama3:8b。这里冒号前面代表模型名称，冒号后面代表tag，可以从这里查看llama3的所有tag

ollama pull llama3:8b

默认下载的是llama3:8b。这里冒号前面代表模型名称，冒号后面代表tag，可以从这里查看llama3的所有tag

ollama pull llama3:70b

2、运行llama3模型

ollama run llama3

上述命令将自动拉取模型，并进行sha256验签。处理完毕后自动进入llama3的运行环境，可以使用中文或英文进行提问，ctrl+D退出。

四、访问 api 服务

1、prompt接口：

curl http://localhost:11434/api/generate -d '{
    "model":"llama3:70b",
    "prompt": "请分别翻译成中文、韩文、日文 -> Meta Llama 3: The most capable openly available LLM to date",
    "stream": false
}'

参数解释如下：

model（必需）：模型名称。
prompt：用于生成响应的提示文本。
images（可选）：包含多媒体模型（如llava）的图像的base64编码列表。

高级参数（可选）：

format：返回响应的格式。目前仅支持json格式。
options：模型文件文档中列出的其他模型参数，如温度（temperature）。
system：系统消息，用于覆盖模型文件中定义的系统消息。
template：要使用的提示模板，覆盖模型文件中定义的模板。
context：从先前的/generate请求返回的上下文参数，可以用于保持简短的对话记忆。
stream：如果为false，则响应将作为单个响应对象返回，而不是一系列对象流。
raw：如果为true，则不会对提示文本应用任何格式。如果在请求API时指定了完整的模板化提示文本，则可以使用raw参数。
keep_alive：控制模型在请求后保持加载到内存中的时间（默认为5分钟）。

返回 json 数据

{
   
   
    "model": "llama3",
    "created_at": "2024-04-23T08:05:11.020314Z",
    "response": "Here are the translations:\n\n**Chinese:** 《Meta Llama 3》：迄今最强大的公开可用的LLM\n\n**Korean:** 《Meta Llama 3》：현재 가장 강력한 공개 사용 가능한 LLM\n\n**Japanese:**\n\n《Meta Llama 3》：現在最強の公開使用可能なLLM\n\n\n\nNote: (Meta Llama 3) is a literal translation, as there is no direct equivalent for \"Meta\" in Japanese. In Japan, it's common to use the English term \"\" or \"\" when referring to Meta.",
    "done": true,
    "context": [
        ...
    ],
    "total_duration": 30786629492,
    "load_duration": 3000782,
    "prompt_eval_count": 32,
    "prompt_eval_duration": 6142245000,
    "eval_count": 122,
    "eval_duration": 24639975000
}

返回值的解释如下：

total_duration：生成响应所花费的总时间。
load_duration：以纳秒为单位加载模型所花费的时间。
prompt_eval_count：提示文本中的标记（tokens）数量。
prompt_eval_duration：以纳秒为单位评估提示文本所花费的时间。
eval_count：生成响应中的标记数量。
eval_duration：以纳秒为单位生成响应所花费的时间。
context：用于此响应中的对话编码，可以在下一个请求中发送，以保持对话记忆。
response：如果响应是以流的形式返回的，则为空；如果不是以流的形式返回，则包含完整的响应。

要计算生成响应的速度，以标记数每秒（tokens per second，token/s）为单位，可以将 eval_count / eval_duration 进行计算。

2、聊天接口

curl http://localhost:11434/api/chat -d '{ "model": "llama3:70b", "messages": [ { "role": "user", "content": "why is the sky blue?" } ] }'

五、配置Open-WebUI

可以直接使用dify开源的llm ops集成：https://guisu.blog.csdn.net/article/details/138978737?spm=1001.2014.3001.5502

两种安装方式：

1、docker部署：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

查看网关：查找标记为default或0.0.0.0的路由条目，它的网关地址即是你需要的host-gateway。

ip route

docker run -d -p 3000:8080 --add-host=host.docker.internal:172.25.191.253 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

要使用 Docker 安装 Open-webui，您可以创建一个 Docker 容器，并在其中运行 Open-webui 服务。以下是安装 Open-webui 的步骤：

拉取 Open WebUI 镜像：

首先，您需要从 Docker Hub 上拉取 Open WebUI的镜像。在终端或命令提示符中运行以下命令：

docker search open-webui

docker pull wanjinyoung/open-webui-main

运行 Open WebUI 容器：

使用以下命令在容器中运行 Open WebUI 服务：

docker run -d -p 3000:8080 --add-host=host.docker.internal:172.25.191.253 -v open-webui:/app/backend/data --name open-webui --restart always docker.io/wanjinyoung/open-webui-main:main

这将在后台运行一个名为 “open-webui” 的容器，并将容器内的端口 3000 映射到宿主机的端口 3000。

访问 Open WebUI：打开您的浏览器，并访问 http://localhost:3000。您应该会看到 Open WebUI的用户界面，通过它您可以与 Ollama 平台进行交互，管理模型和监控训练过程。

2、源码部署：

安装Node.js

支持Ollama的WebUI非常多，笔者体验过热度第一的那个WebUI(github.com/open-webui/…%EF%BC%8C%E9%9C%80%E8%A6%81Docker%E6%88%96%E8%80%85Kubernetes%E9%83%A8%E7%BD%B2%EF%BC%8C%E6%9C%89%E7%82%B9%E9%BA%BB%E7%83%A6%EF%BC%8C%E8%80%8C%E4%B8%94%E9%95%9C%E5%83%8F%E4%B9%9F%E5%B7%AE%E4%B8%8D%E5%A4%9A1G%E3%80%82)

本文推荐使用ollama-webui-lite(github.com/ollama-webu…%EF%BC%8C%E9%9D%9E%E5%B8%B8%E8%BD%BB%E9%87%8F%E7%BA%A7%EF%BC%8C%E5%8F%AA%E9%9C%80%E8%A6%81%E4%BE%9D%E8%B5%96Node.js%E3%80%82)

设置国内NPM镜像

官方的NPM源国内访问有点慢，笔者推荐国内用户使用腾讯NPM源（mirrors.cloud.tencent.com/npm/），之前笔者使…

打开终端执行以下命令设置NPM使用腾讯源：

npm config set registry http://mirrors.cloud.tencent.com/npm/

部署WebUI

打开终端，执行以下命令部署WebUI：

git clone https://github.com/ollama-webui/ollama-webui-lite.git
cd ollama-webui-lite
npm install
npm run dev

WebUI已经在本地3000端口进行监听：

3、配置及使用

进入到 Open WebUI 页面点击设置，在设置里面点击模型，输入我们需要下载的模型并点击下载，等下载完成之后我们就可以使用了。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-05-17，如有侵权请联系 cloudcommunity@tencent.com 删除

部署

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

1666

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

756

60页PPT全解：DeepSeek系列论文技术要点整理

1528

使用Ollama部署deepseek大模型

服务器模型 DeepSeek 容器部署

我的显卡在Windows电脑上面所以使用Windows的安装方式去安装若你的显卡是在Linux上面可以使用如下命令安装

小陈运维

2025/02/04

2.2K0

使用Ollama部署deepseek大模型

DeepSeek

连接到另一台服务器上的Ollama时，请将OLLAMA_BASE_URL更改为服务器的URL：

小陈运维

2025/01/26

2.9K0

本机部署大语言模型：Ollama和OpenWebUI实现各大模型的人工智能自由

人工智能

本篇文章介绍在window系统下，安装Ollama并且安装gemma（谷歌大模型）、llama2（脸书大模型）、qwen（阿里大模型）等大模型的教程，实现类似免费ChatGPT的web界面

星哥玩云

2024/05/14

6.1K0

使用Ollama和Open WebUI管理本地开源大模型的完整指南

主机容器开源管理模型

Open WebUI 是一种基于 Web 的用户界面，用于管理和操作各种本地和云端的人工智能模型。它提供了一个直观的图形化界面，使用户可以方便地加载、配置、运行和监控各种 AI 模型，而无需编写代码或使用命令行界面。

神秘泣男子

2024/06/03

23.9K0

一文读懂如何基于Ollama在本地运行LLM

time 部署模型 LLM 开源

在当今人工智能技术飞速发展的时代，大型语言模型(LLM)无疑已成为焦点炯炯的科技明星。自从ChatGPT的推出以来，其强大的自然语言理解和生成能力便惊艳了全球，成为人工智能商业化进程中的杰出代表。

Luga Lee

2024/11/01

3840

Ollama 安装与使用指南笔记

大模型知识引擎

在探索大模型的道路上，Ollama 作为一款开源项目为我们提供了很大的便利。下面将详细介绍它的安装与使用，并补充一些常见问题及解决方法。

ceagle

2024/12/30

4.6K0

【5分钟玩转Lighthouse】手把手部署DeepSeek R1模型

轻量应用服务器 DeepSeek

近期，AI领域一颗新星冉冉升起，它就是备受瞩目的DeepSeek模型。凭借其强大的自然语言处理能力和广泛的应用场景，DeepSeek迅速在科技圈掀起一股热潮，成为开发者们争相研究和应用的对象。从智能客服到内容创作，从代码生成到数据分析，DeepSeek展现出的潜力令人惊叹。

风之泪

2025/02/04

8090

Ubuntu系统下部署大语言模型：Ollama和OpenWebUI实现各大模型的人工智能自由

人工智能

之前在window下安装过 Ollama和OpenWebUI搭建本地的人工智能web项目（可以看我之前写的文章），无奈电脑硬件配置太低，用qwen32b就很卡，卡出PPT了，于是又找了一台机器安装linux系统，在linux系统下测试一下速度能否可以快一些。

星哥玩云

2024/05/18

6.3K0

Ubuntu系统下部署大语言模型：Ollama和OpenWebUI实现各大模型的人工智能自由

容器环境下部署Open-webui、One-api、Ollama、Deepseek

腾讯技术创作特训营S12#AI进化论大模型部署 DeepSeek

浏览器访问 http://ip:3000 （注意：首次登录不要去注册，直接登录，默认超管账号：root，密码：123456），登录后直接跳转到更新用户信息界面修改后再重新登陆，如下截图：

用户2141488

2025/03/07

3821

本地部署大模型的几种方式

工具模型开源编程部署

现在大模型可谓是满天飞, 只要你稍微关注时下的AI资讯, 几乎每天都有新的AI大模型出现. 这之中当然有诸如GhatGPT, Gemini这样的私有化大模型, 更吸引人关注的可能是开源的可私有化部署的一些大模型. 比如Meta前两天开放的Lamma 3, Google的Gemma开源模型, 国内也有Qwen以及YI等.

御剑

2024/04/23

6.4K0

通过ollama+open webui可视化运行gemma

内存部署管理可视化模型

ollama是专为在Docker容器中部署LLM而设计的，简化了部署和管理流程，目前它支持的模型如下：

数据仓库晨曦

2024/03/06

8.7K0

普通电脑也能跑大模型，三步搞定私人AI助手 | LLaMA-3本地部署小白攻略

模型数据开源部署命令行

“ 在你的电脑上运行一个强大的AI助手，它不仅能力超群，还把所有秘密都藏在你的硬盘里。好奇这是如何实现的吗？动动手，三分钟就可以完成LLaMA-3的本地部署！”

技术人生黄勇

2024/07/19

2.6K0

llama3&open-webui快速实现本地模型搭建

模型测试

最近工作生活中经常使用一些人工智能来提升效率，用处最多的感觉还是写一些工具类，就算写的不如意，自己稍微调整也可以很快支持；再就是一些命令，有时长时间不用会淡忘，这时候有ai模型去提示感觉效率很高；

司夜

2024/04/29

2K0

简单3步部署本地国产大模型DeepSeek大模型

DeepSeek 腾讯技术创作特训营S11#重启人生

DeepSeek是最近非常火的开源大模型，国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性，受到了众多开发者的关注。

星哥玩云

2025/02/06

4.8K0

用 Ollama 打造你的本地 AI 小助手：LLaMA / Mistral 部署全流程

模型网络系统部署解决方案

而搭配 Open WebUI，你可以获得近似 ChatGPT 的 Web 聊天界面👇：

默语

2025/04/25

3970

在Elastic AI Assistant 中使用本地部署的 LLM（Llama3）

Elasticsearch Service

在现代企业中，人工智能和机器学习的应用越来越广泛。Elastic AI Assistant 是一个强大的工具，能够通过连接大语言模型（LLM）来集成人工智能技术，帮助企业提升数据处理能力，简化操作流程，实现智能化的决策支持。目前，Elastic AI Assistant 支持通过连接器连接到 Amazon Bedrock 和 OpenAI。

点火三周

2024/06/26

5920

在Elastic AI Assistant 中使用本地部署的 LLM（Llama3）

使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南

性能存储部署模型内存

Ollama是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它提供了一套简单的工具和命令，使任何人都可以轻松地启动和使用各种流行的LLM，例如GPT-3、Megatron-Turing NLG和WuDao 2.0。

神秘泣男子

2024/06/06

1.2K0

使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

优化 LLM 部署开发模型

Ollama 是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。，这是 Ollama 的官网地址：https://ollama.com/

汀丶人工智能

2024/08/17

1.4K0

LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发

Docker三分钟搞定LLama3开源大模型本地部署

服务管理模型开源部署

LLaMA-3（Large Language Model Meta AI 3）是由Meta公司开发的大型开源生成式人工智能模型。它在模型结构上与前一代LLaMA-2相比没有大的变动。

Tinywan

2024/04/28

7.4K0

Mac环境下ollama部署和体验

mac 部署管理模型内存

程序员欣宸

2024/05/26

1.9K0