前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Ollama部署本地LLM:构建AI REST API的简易指南

使用Ollama部署本地LLM:构建AI REST API的简易指南

作者头像
TechLead
发布2024-09-27 18:42:05
760
发布2024-09-27 18:42:05
举报
文章被收录于专栏:TechLead

利用Ollama本地LLM(大语言模型)搭建AI的REST API服务是一个实用的方法。下面是一个简单的工作流程。

1. 安装Ollama和LLMs

首先,在本地机器上安装Ollama和本地LLMs。Ollama可以帮助你轻松地在本地部署LLMs,并让它们更方便地处理各种任务。

安装 Ollama

Ollama安装界面

Ollama下载页面

安装应用文件

为Ollama安装LLMs

代码语言:javascript
复制
ollama pull llama3
ollama run llama3

下载并运行llama3

在本地与llama3对话

Ollama命令

代码语言:javascript
复制
可用的命令:
  /set         设置会话变量
  /show        显示模型信息
  /bye         退出
  /?, /help    帮助命令

使用 "" 开始多行消息

测试Ollama

代码语言:javascript
复制
curl http://localhost:11434/api/generate -d '{  
  "model": "llama3",  
  "prompt": "为什么天空是蓝色的?",  
  "stream": true  
}'

如果stream设置为false,响应将是一个完整的JSON对象。

代码语言:javascript
复制
curl http://localhost:11434/api/generate -d '{  
  "model": "llama3",  
  "prompt": "为什么天空是蓝色的?",  
  "stream": false  
}'
2. 设置FastAPI

接下来,设置一个Python的FastAPI应用。FastAPI是一个现代、快速(高性能)的Web框架,基于标准的Python类型提示,支持Python 3.7及以上版本。它是构建稳健高效API的理想选择。

编写FastAPI的路由和端点,以便与Ollama服务器进行交互。这个过程包括发送请求给Ollama以处理任务,比如文本生成、语言理解或其他LLM支持的AI任务。以下是一个简单的代码示例(你也可以使用 Ollama Python库 来优化代码)。

代码语言:javascript
复制
from typing import Union
from fastapi import FastAPI
from pydantic import BaseModel
import json
import requests

app = FastAPI(debug=True)

class Itemexample(BaseModel):
    name: str
    prompt: str
    instruction: str
    is_offer: Union[bool, None] = None

class Item(BaseModel):
    model: str
    prompt: str

urls = ["http://localhost:11434/api/generate"]

headers = {
    "Content-Type": "application/json"
}

@app.get("/")
def read_root():
    return {"Hello": "World"}

@app.post("/chat/{llms_name}")
def update_item(llms_name: str, item: Item):
    if llms_name == "llama3":
        url = urls[0]
        payload = {
            "model": "llama3",
            "prompt": "为什么天空是蓝色的?",
            "stream": False
        }
        response = requests.post(url, headers=headers, data=json.dumps(payload))
        if response.status_code == 200:
            return {"data": response.text, "llms_name": llms_name}
        else:
            print("错误:", response.status_code, response.text)
            return {"item_name": item.model, "error": response.status_code, "data": response.text}
    return {"item_name": item.model, "llms_name": llms_name}

测试REST-API服务

代码语言:javascript
复制
curl --location 'http://127.0.0.1:8000/chat/llama3' \
--header 'Content-Type: application/json' \
--data '{
  "model": "llama3",
  "prompt": "为什么天空是蓝色的?"
}'

通过API发送Curl请求

API日志

3. 部署

当你对REST API的功能和性能感到满意后,可以将此服务部署到生产环境。这可能涉及将其部署到云平台、使用Docker进行容器化,或者在服务器上部署。

在这个简单的示例中,我们通过使用Ollama进行本地LLM部署并结合FastAPI构建REST API服务器,创建了一个免费的AI服务解决方案。你可以通过自己的训练数据对模型进行微调以实现定制用途(我们将在未来讨论)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TechLead 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 安装Ollama和LLMs
    • 2. 设置FastAPI
      • 3. 部署
      相关产品与服务
      容器服务
      腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档